JosuaKugler 4 years ago
parent
commit
412b349007
2 changed files with 20 additions and 21 deletions
  1. BIN
      inst/reports/abschlussbericht.pdf
  2. +20
    -21
      inst/reports/abschlussbericht.tex

BIN
inst/reports/abschlussbericht.pdf View File


+ 20
- 21
inst/reports/abschlussbericht.tex View File

@@ -1,29 +1,28 @@
\documentclass{article}
\usepackage[ngerman]{babel}
\usepackage[top=2.5cm, bottom=2.5cm]{geometry}

\title{Abschlussbericht}
\author{Leon Burgard, Josua Kugler, Christian Merten}
\begin{document}
\maketitle
\section*{Projektbeschreibung}
Wir haben zunächst die Plenarprotokolle der 19. Wahlperiode von der Website automatisiert herunterladen lassen.
Als nächstes haben wir die Daten in ein für die Analyse sinnvolles Format gebracht, d.h. 5 Tibbles (speaker, speeches, talks, comments, applause) erstellt und Fehler ausgebessert.
Daraufhin konnten wir mit der Analyse beginnen. Dafür haben wir verschiedene vignettes erstellt, in denen wir die Daten auf unterschiedliche Fragestellungen hin untersucht haben.
%list vignettes
\section*{Werkzeuge aus der Vorlesung}
Wir haben, da es hauptsächlich um Datenanalyse ging, sehr viel mit tidyverse gearbeitet.
Ganz zu Beginn haben wir fürs fetchen der Protokolle rvest verwendet.
Für die Visualisierung haben wir ggplot2 sowie vignettes genutzt.
Unser Projekt \glqq Plenarprotokolle \grqq stellt mittels dem Paket \verb|hateimparlament| Funktionen zur Analyse der Plenarprotokolle der 19. Wahlperiode des deutschen Bundestages zur Verfügung. Diese Funktionen können in vier Bereiche unterteilt werden:
\begin{enumerate}
\item Herunterladen der Protokolle
\item Konvertierung der XML-Dateien in Tibbles
\item Reparieren von Fehlern
\item Analyse
\end{enumerate}
Das Herunterladen der Protokolle gelingt über die Funktion
\verb|fetch_all()|, welche auf die Website des deutschen Bundestages zugreift und die XML-Dateien einzeln herunterlädt. Hierzu haben wir das Paket rvest verwendet, welches wir bereits in der Vorlesung kennengelernt haben.
Durch \verb|read_all()| werden diese heruntergeladenen XML-Dateien in eine benannte Liste mit fünf Tibbles (speaker, speeches, talks, comments und applause) geschrieben. Allerdings benötigt man diese Tibbles immer wieder und es ist ziemlich zeitaufwändig die XML-Dateien immer wieder neu in Tibbles einzulesen, deshalb haben wir zusätzlich eine Funkion \verb|write_to_csv()| geschrieben, die die fertigen Tibbles als CSV-Dateien speichert. Diese können dann sehr schnell durch \verb|read_from_csv()| eingelesen werden, wodurch viel Zeit gesparrt wird.
Da diese Protokolle kleine Fehler enthalten, müssen diese noch im nächsten Schritt bereinigt werden, was mit \verb|repair()| funktioniert. Hierbei wird das Paket tidyverse viel benutzt, welches insgesamt sehr viel in unserem Projekt beansprucht wird, da wir uns mit der Datenanalyse beschäftigen.
In \verb|analyse.R| stellen wir noch einige Hilfsfunktionen bereit, die es dem Nutzer vereinfachen die Daten auszuwerten. Beispielsweise steht schon eine Funktion zur Verfügung, die ein Balkendiagramm erstellt, bei dem jede Partei des Bundestages sperat ausgewertet wird. Hierbei wird das Paket \verb|ggplot2| verwendet.
Im letzten Schritt unseres Projekts haben wir Fragestellungen festgelegt, die wir mithilfe von unserem Paket beantworten wollten. Die Daten und unsere Ergebnisse visualisierten wir mithilfe von \verb|ggplot2| und \verb|tidyverse| in Vignetten.
\section*{Organisation des Teams}
Wir hatten uns ganz zu Beginn getroffen, um herauszufinden, wie man die Protokolle von der Website fetchen kann.
Letztendlich war die Website aber dann doch sehr schwer zu verstehen und Christian hat nach langer Zeit die richtigen Parameter für den Ajax-Link gefunden, über den wir die Protokolle jetzt fetchen.
Danach hat Christian den Code geschrieben, um die Protokolle zu parsen und Fehler auszubessern sowie einige Helper für die Analyse erstellt.
Josua hat Texte mit Nazivokabular sowie Sammlungen deutscher Wörter gesucht und mit python (geht schneller als R bei so großen Datenmengen) in ein verarbeitbares Format gebracht.
Danach hat er die hitlercomparison vignette erstellt.
Leon hat eine Funktion geschrieben, um das Geschlecht der Bundestagsmitglieder aus Wikipedia-Artikeln zu ermitteln.
Mit diesen Daten hat er dann die genderequality vignette programmiert, an der Josua nochmal Details an den plots geändert hat.
Christian hat in der funwithdata vignette zahlreiche Beispiele für Analyse erstellt.
Leon hat diese vignette schließlich aufgespalten in mehrere thematisch gegliederte vignettes.
Außerdem hat er zum größten Teil die Dokumentation übernommen. Manche Funktionen hat auch Josua dokumentiert bzw.
Einzelheiten geändert.
Die Berichte wurden von Josua erstellt.
Während der ersten Projektphase wurden hauptsächlich die Funktionen zum Herunterladen der Dateien und Konvertieren und Reparieren der Tibbles geschrieben. Dies geschah größtenteils in Einzelarbeit, wobei hierbei die gegenseitige Kontrolle und Nachfragen die Funktionen optimiert haben. Zwischendurch wurde immer mal wieder zu einer HeiConf-Konferenz einberufen, um sich selbst den Zwischenstand klar zu machen und die Herausforderungen für die nächsten Wochen zu besprechen.
In der zweiten Hälfte des Projekts kümmerten wir uns dann um die Analyse der Daten und stellten unsere Ergebnisse in Vignetten da und erzeugten Dokumentationen für alle Funktionen, die für den Nutzer wichtig sind.
\newpage
\section*{Meine Beteiligung}

\end{document}

Loading…
Cancel
Save