Преглед на файлове

Merge branch 'master' of gitea:christian/hateimparlament

genderequality-alternative
flavis преди 4 години
родител
ревизия
b02ab91c31
променени са 1 файла, в които са добавени 6 реда и са изтрити 97 реда
  1. +6
    -97
      README.md

+ 6
- 97
README.md Целия файл

@@ -102,103 +102,12 @@ structure: `speech_id`, `on_speaker`, `CDU_CSU`, `SPD`, `FDP`, `DIE_LINKE`, `BUE

analysis.R provides some functions to analyze the "Plenarprotokolle" and to create plots.

In the vignettes you can find different analyses of the protocols.
In the vignettes you can find different analyses of the protocols, for example:

- "Who talks the most?"
- "Which party gives the most speeches?"
- "Which party comments the most on which parties?"
- "When are which topics discussed the most?"
- ...


____________________________________________________________________________


# How to develop

```r
# alles geht mit devtools (laedt auch noch ein paar andere pakete)
library(devtools)

# neu laden aller paket funktionen
load_all()

#In CSV-files schreiben, um das laden zu beschleunigen
tables <- read_all()
tables <- repair(tables)
write_to_csv(tables)
```
Wir verwenden NIEMALS source, etc.! Außerdem NIEMALS library(...) verwenden, sondern
um neue pakete hinzuzufuegen (als dependency), verwende:
```r
use_package("my-good-old-package")
```
Um paket imports verfuegbar zu machen, muss man diese in `R/hateimparlament-package.R`
als `@import <package>` hinzufuegen.

Um dokumentationen neu zu laden / zu erstellen (ruft roxgen auf)
```r
document()
```

Baue vignetten
```r
rmarkdown::render("vignettes/bla.Rmd")
```

# Herunterladen

Bevor analysiert werden kann, muss fetch.R ausgeführt werden, um alle Protokolle herunterzuladen.

# Parsing

## Tabellen

parse.R parsed einzelne Protokolle und erstellt 5 Tibbles

### Redner

Struktur: `id` , `vorname` , `nachname` , `fraction` , `titel` , `rolle_kurz`, `rolle_lang`

Die Rollen sind beispielsweise "Bundeskanzlerin". Leider gegendert und deshalb wahrscheinlich
nervig zu analysieren.

Wird gewonnnen aus dem `<rednerliste>` Eintrag am Ende der Protokolle.

### Reden

Struktur: `id` , `redner`

Die Reden `id` wird im Protokoll festgelegt und ist eindeutig. Eine Rede ist ein
`<rede>` Eintrag im Sitzungsverlauf. Eine Rede hat immer einen Hauptredner
(der der vorne am Pult steht).

Innerhalb einer Rede kann es verschieden Redebeiträge geben:

- Kommentare: Beifall, Zwischenrufe, etc.
- Redebeiträge: Typischerweise hauptsächlich der Hauptredner, aber auch Zwischenfragen. Diese werden
beim parsen in der Tabelle Talks gespeichert.

### Talks

Struktur: `rede_id` , `redner` , `content`

Das sind die eigentlichen Redebeiträge, die innerhalb von _rede_ Einträgen auftauchen. Dabei gilt:

- `rede_id`: Die Rede in dem der Beitrag auftaucht
- `redner`: Der Sprecher des Redebeitrags
- `content`: Der Inhalt der Rede (__wichtig__: Aktuell werden die Ordnungskommentare des
Bundestagspräsidenten nicht herausgefiltert, tauchen also im Inhalt auf, obwohl sie nicht vom
`redner` gesprochen werden. To be fixed -> Issues!)

## Noch zu parsen: Alles kann, nichts muss.

- Kommentare (aktuell werden nur `<p>`'s in Reden gesammelt). Hier ist zu überlegen, wie diese
gesammelt werden sollten.
- Meta Daten? Diese sind teilweise in den `rede_id`'s encoded.

## Kombinieren der Tabellen der Protokolle

- Alle Tabellen sollten schlussendlich kombiniert werden zu großen Tabellen über
alle Protokolle.

# Analyse

- Schnittmenge AfD Vokabular und Hitler's Reden?
- Redeanteile nach Geschlecht (dazu gibt es leider keine Daten in der Rednerliste), Fraktion, etc.
- Ideen, Ideen, Ideen ...

Loading…
Отказ
Запис