# Herunterladen Bevor analysiert werden kann, muss fetch.R ausgeführt werden, um alle Protokolle herunterzuladen. # Parsing ## Tabellen parse.R parsed einzelne Protokolle und erstellt 3 Tibbles ### Redner Struktur: id , vorname , nachname , fraktion , titel , rolle_kurz, rolle_lang Die Rollen sind beispielsweise "Bundeskanzlerin". Leider gegendert und deshalb wahrscheinlich nervig zu analysieren. Wird gewonnnen aus dem _rednerliste_ Eintrag am Ende der Protokolle. ### Reden Struktur: id , redner Die Reden id wird im Protokoll festgelegt und ist eindeutig. Eine Rede ist ein _rede_ Eintrag im Sitzungsverlauf. Eine Rede hat immer einen Hauptredner (der der vorne am Pult steht). Innerhalb einer Rede kann es verschieden Redebeiträge geben: - Kommentare: Beifall, Zwischenrufe, etc. - Redebeiträge: Typischerweise hauptsächlich der Hauptredner, aber auch Zwischenfragen. Diese werden beim parsen in der Tabelle Talks gespeichert. ### Talks Struktur: rede_id , redner , content Das sind die eigentlichen Redebeiträge, die innerhalb von _rede_ Einträgen auftauchen. Dabei gilt: - rede_id: Die Rede in dem der Beitrag auftaucht - redner: Der Sprecher des Redebeitrags - content: Der Inhalt der Rede (__wichtig__: Aktuell werden die Ordnungskommentare des Bundestagspräsidenten nicht herausgefiltert, tauchen also im Inhalt auf, obwohl sie nicht vom _redner_ gesprochen werden. To be fixed!) ## Noch zu parsen: Alles kann, nichts muss. - Kommentare (aktuell werden nur _p_'s in Reden gesammelt). Hier ist zu überlegen, wie diese gesammelt werden sollten. - Meta Daten? Diese sind teilweise in den rede_id's encoded. ## Kombinieren der Tabellen der Protokolle - Alle Tabellen sollten schlussendlich kombiniert werden zu großen Tabellen über alle Protokolle. # Analyse - Schnittmenge AfD Vokabular und Hitler's Reden? - Redeanteile nach Geschlecht (dazu gibt es leider keine Daten in der Rednerliste), Fraktion, etc. - Ideen, Ideen, Ideen ...