Bladeren bron

add some description

package
flavis 4 jaren geleden
bovenliggende
commit
83b44c6322
1 gewijzigde bestanden met toevoegingen van 61 en 0 verwijderingen
  1. +61
    -0
      scraping/README.md

+ 61
- 0
scraping/README.md Bestand weergeven

@@ -0,0 +1,61 @@
# Herunterladen

Bevor analysiert werden kann, muss fetch.R ausgeführt werden, um alle Protokolle herunterzuladen.

# Parsing

## Tabellen

parse.R parsed einzelne Protokolle und erstellt 3 Tibbles

### Redner

Struktur: id , vorname , nachname , fraktion , titel , rolle_kurz, rolle_lang

Die Rollen sind beispielsweise "Bundeskanzlerin". Leider gegendert und deshalb wahrscheinlich
nervig zu analysieren.

Wird gewonnnen aus dem _rednerliste_ Eintrag am Ende der Protokolle.

### Reden

Struktur: id , redner

Die Reden id wird im Protokoll festgelegt und ist eindeutig. Eine Rede ist ein
_rede_ Eintrag im Sitzungsverlauf. Eine Rede hat immer einen Hauptredner
(der der vorne am Pult steht).

Innerhalb einer Rede kann es verschieden Redebeiträge geben:

- Kommentare: Beifall, Zwischenrufe, etc.
- Redebeiträge: Typischerweise hauptsächlich der Hauptredner, aber auch Zwischenfragen. Diese werden
beim parsen in der Tabelle Talks gespeichert.

### Talks

Struktur: rede_id , redner , content

Das sind die eigentlichen Redebeiträge, die innerhalb von _rede_ Einträgen auftauchen. Dabei gilt:

- rede_id: Die Rede in dem der Beitrag auftaucht
- redner: Der Sprecher des Redebeitrags
- content: Der Inhalt der Rede (__wichtig__: Aktuell werden die Ordnungskommentare des
Bundestagspräsidenten nicht herausgefiltert, tauchen also im Inhalt auf, obwohl sie nicht vom
_redner_ gesprochen werden. To be fixed!)

## Noch zu parsen: Alles kann, nichts muss.

- Kommentare (aktuell werden nur _p_'s in Reden gesammelt). Hier ist zu überlegen, wie diese
gesammelt werden sollten.
- Meta Daten? Diese sind teilweise in den rede_id's encoded.

## Kombinieren der Tabellen der Protokolle

- Alle Tabellen sollten schlussendlich kombiniert werden zu großen Tabellen über
alle Protokolle.

# Analyse

- Schnittmenge AfD Vokabular und Hitler's Reden?
- Redeanteile nach Geschlecht (dazu gibt es leider keine Daten in der Rednerliste), Fraktion, etc.
- Ideen, Ideen, Ideen ...

Laden…
Annuleren
Opslaan