diff --git a/reports/zwischenbericht.pdf b/reports/zwischenbericht.pdf index 7b5a074..ca6836d 100644 Binary files a/reports/zwischenbericht.pdf and b/reports/zwischenbericht.pdf differ diff --git a/reports/zwischenbericht.tex b/reports/zwischenbericht.tex index e677fe6..0a441c6 100644 --- a/reports/zwischenbericht.tex +++ b/reports/zwischenbericht.tex @@ -6,20 +6,24 @@ \item Website scrapen \item Protokolle fetchen \item Protokolle parsen + \begin{itemize} + \item Redner ermitteln + \item Redebeiträge extrahieren + \item Ordnungskommentare filtern + \item Kommentare extrahieren + \end{itemize} \end{itemize} \section*{Wie ist der Zustand aktuell?} - Protokolle sind heruntergeladen und geparsed in einzelnen Tabellen, die noch zusammengeführt werden müssen. + Protokolle sind heruntergeladen und geparsed in einer großen Tabelle. Es gibt noch ein paar Issues, aber das meiste was wir haben funktioniert auch soweit. \section*{Was muss noch gemacht werden?} \begin{itemize} \item Parsen verbessern (muss nicht alles gemacht werden, aber wäre vielleicht schön) \begin{itemize} - \item Ordnungskommentare des Bundestagspräsidenten herausfiltern - \item Kommentare extrahieren und in Kategorien einteilen, z.B. Kategorie Beifall mit Liste der applaudierenden Parteien + \item Kommentare in Kategorien einteilen, z.B. Kategorie Beifall mit Liste der applaudierenden Parteien \item Metadaten vom Anfang extrahieren \item Fehler bereinigen \end{itemize} - \item Tabellen der einzelnen Sitzungen kombinieren zu globalen Tabellen \item Daten auf bestimmte Fragestellungen untersuchen \begin{itemize} \item Wer redet am häufigsten / längsten?