update README.md

4年前 · 4d00f4d1b0
--- a/README.md
+++ b/README.md
@@ -102,103 +102,12 @@ structure: `speech_id`, `on_speaker`, `CDU_CSU`, `SPD`, `FDP`, `DIE_LINKE`, `BUE

 analysis.R provides some functions to analyze the "Plenarprotokolle" and to create plots.

 In the vignettes you can find different analyses of the protocols.
 In the vignettes you can find different analyses of the protocols, for example:

 - "Who talks the most?"
 - "Which party gives the most speeches?"
 - "Which party comments the most on which parties?"
 - "When are which topics discussed the most?"
 - ...


 ____________________________________________________________________________


 # How to develop

 ```r
 # alles geht mit devtools (laedt auch noch ein paar andere pakete)
 library(devtools)

 # neu laden aller paket funktionen
 load_all()

 #In CSV-files schreiben, um das laden zu beschleunigen
 tables <- read_all()
 tables <- repair(tables)
 write_to_csv(tables)
 ```
 Wir verwenden NIEMALS source, etc.! Außerdem NIEMALS library(...) verwenden, sondern
 um neue pakete hinzuzufuegen (als dependency), verwende:
 ```r
 use_package("my-good-old-package")
 ```
 Um paket imports verfuegbar zu machen, muss man diese in `R/hateimparlament-package.R`
 als `@import <package>` hinzufuegen.

 Um dokumentationen neu zu laden / zu erstellen (ruft roxgen auf)
 ```r
 document()
 ```

 Baue vignetten
 ```r
 rmarkdown::render("vignettes/bla.Rmd")
 ```

 # Herunterladen

 Bevor analysiert werden kann, muss fetch.R ausgeführt werden, um alle Protokolle herunterzuladen.

 # Parsing

 ## Tabellen

 parse.R parsed einzelne Protokolle und erstellt 5 Tibbles

 ### Redner

 Struktur: `id` , `vorname` , `nachname` , `fraction` , `titel` , `rolle_kurz`, `rolle_lang`

 Die Rollen sind beispielsweise "Bundeskanzlerin". Leider gegendert und deshalb wahrscheinlich
 nervig zu analysieren.

 Wird gewonnnen aus dem `<rednerliste>` Eintrag am Ende der Protokolle.

 ### Reden

 Struktur: `id` , `redner`

 Die Reden `id` wird im Protokoll festgelegt und ist eindeutig. Eine Rede ist ein
 `<rede>` Eintrag im Sitzungsverlauf. Eine Rede hat immer einen Hauptredner
 (der der vorne am Pult steht).

 Innerhalb einer Rede kann es verschieden Redebeiträge geben:

 - Kommentare: Beifall, Zwischenrufe, etc.
 - Redebeiträge: Typischerweise hauptsächlich der Hauptredner, aber auch Zwischenfragen. Diese werden
 beim parsen in der Tabelle Talks gespeichert.

 ### Talks

 Struktur: `rede_id` , `redner` , `content`

 Das sind die eigentlichen Redebeiträge, die innerhalb von _rede_ Einträgen auftauchen. Dabei gilt:

 - `rede_id`: Die Rede in dem der Beitrag auftaucht
 - `redner`: Der Sprecher des Redebeitrags
 - `content`: Der Inhalt der Rede (__wichtig__: Aktuell werden die Ordnungskommentare des
 Bundestagspräsidenten nicht herausgefiltert, tauchen also im Inhalt auf, obwohl sie nicht vom
 `redner` gesprochen werden. To be fixed -> Issues!)

 ## Noch zu parsen: Alles kann, nichts muss.

 - Kommentare (aktuell werden nur `<p>`'s in Reden gesammelt). Hier ist zu überlegen, wie diese
 gesammelt werden sollten.
 - Meta Daten? Diese sind teilweise in den `rede_id`'s encoded.

 ## Kombinieren der Tabellen der Protokolle 

 - Alle Tabellen sollten schlussendlich kombiniert werden zu großen Tabellen über
 alle Protokolle.

 # Analyse

 - Schnittmenge AfD Vokabular und Hitler's Reden?
 - Redeanteile nach Geschlecht (dazu gibt es leider keine Daten in der Rednerliste), Fraktion, etc.
 - Ideen, Ideen, Ideen ...