diff --git a/scraping/README.md b/scraping/README.md new file mode 100644 index 0000000..e047e5c --- /dev/null +++ b/scraping/README.md @@ -0,0 +1,61 @@ +# Herunterladen + +Bevor analysiert werden kann, muss fetch.R ausgeführt werden, um alle Protokolle herunterzuladen. + +# Parsing + +## Tabellen + +parse.R parsed einzelne Protokolle und erstellt 3 Tibbles + +### Redner + +Struktur: id , vorname , nachname , fraktion , titel , rolle_kurz, rolle_lang + +Die Rollen sind beispielsweise "Bundeskanzlerin". Leider gegendert und deshalb wahrscheinlich +nervig zu analysieren. + +Wird gewonnnen aus dem _rednerliste_ Eintrag am Ende der Protokolle. + +### Reden + +Struktur: id , redner + +Die Reden id wird im Protokoll festgelegt und ist eindeutig. Eine Rede ist ein +_rede_ Eintrag im Sitzungsverlauf. Eine Rede hat immer einen Hauptredner +(der der vorne am Pult steht). + +Innerhalb einer Rede kann es verschieden Redebeiträge geben: + +- Kommentare: Beifall, Zwischenrufe, etc. +- Redebeiträge: Typischerweise hauptsächlich der Hauptredner, aber auch Zwischenfragen. Diese werden +beim parsen in der Tabelle Talks gespeichert. + +### Talks + +Struktur: rede_id , redner , content + +Das sind die eigentlichen Redebeiträge, die innerhalb von _rede_ Einträgen auftauchen. Dabei gilt: + +- rede_id: Die Rede in dem der Beitrag auftaucht +- redner: Der Sprecher des Redebeitrags +- content: Der Inhalt der Rede (__wichtig__: Aktuell werden die Ordnungskommentare des +Bundestagspräsidenten nicht herausgefiltert, tauchen also im Inhalt auf, obwohl sie nicht vom +_redner_ gesprochen werden. To be fixed!) + +## Noch zu parsen: Alles kann, nichts muss. + +- Kommentare (aktuell werden nur _p_'s in Reden gesammelt). Hier ist zu überlegen, wie diese +gesammelt werden sollten. +- Meta Daten? Diese sind teilweise in den rede_id's encoded. + +## Kombinieren der Tabellen der Protokolle + +- Alle Tabellen sollten schlussendlich kombiniert werden zu großen Tabellen über +alle Protokolle. + +# Analyse + +- Schnittmenge AfD Vokabular und Hitler's Reden? +- Redeanteile nach Geschlecht (dazu gibt es leider keine Daten in der Rednerliste), Fraktion, etc. +- Ideen, Ideen, Ideen ...