Sommergespräche 2016 in (einigen) Zahlen
Die Sommergespräche im ORF werden dankenswerterweise von neuwal.com laufend mit Transkripte begleitet - eine gute Gelegenheit, ein paar Dinge zu versuchen. Das Ziel wäre eine (möglichst) automatische Zusammenfassung einiger Daten, die die Gespräche charakterisieren könnten - nicht allerdings eine Inhaltsanalyse im wissenschaftlichen Sinn.

Die automatisierte Auswertung von - noch dazu gesprochener - Sprache ist recht komplex und fehleranfällig (siehe unten). Die folgenden Daten sind daher keine harte Währung, sondern mehr eine Spielerei und der Versuch, aus dem gesprochenen Wort Daten zu extrahieren (weil's grad keine Wahlen gibt...). Anspruch auf Fehlerfreiheit wird sowieso nicht erhoben.
Eckdaten
Erste Daten anhand einiger basics: Die hohe Zahl an Fragen durch die Moderatorin im Gespräch mit Frank Stronach nimmt den - nennen wir es diskursiven - Gesprächsverlauf vorweg. Eva Glawischnig und Reinhold Mitterlehner bringen sehr viele Worte in ihren Antworten unter und sprechen durchwegs recht lange, Christian Kern hat ihre Werte aber noch übertroffen. Im Gespräch mit Matthias Strolz gab es neben längeren Ausführungen viele sehr kurze Antworten ("ja", "ok" - was zum niedrigsten Median-Wert führt). Heinz-Christian Strache liegt im Vergleich recht durchschnittlich.
Gesprächsverlauf
Nächster Punkt, der Gesprächsverlauf: Fragen (hell) und Antworten (dunkel) werden hier aneinandergereiht, die Breite der Blöcke entspricht der Länge der jeweiligen Aussage (in Zeichen). Größere Blöcke stehen demnach für längere Fragen oder Antworten, kleinere für Phasen eines schnelleren Austausches. Während etwa die Gespräche mit Glawischnig und Mitterlehner (und teilweise Strolz) tendenziell von längeren Blöcken gekennzeichnet sind, bietet sich bei Stronach das Wort "zerfranst" an. Das Gespräch mit Strache war in Zeichen gemessen das längste, wobei die zu Beginn längeren Antworten im Verlauf kürzer geworden sind. Das Sommergespräch mit Kern war durch sehr lange Antworten gekennzeichnet, was den Platz für Fragen verkürzt.
häufigste Begriffe
Die Balken zeigen die absolute Häufigkeit der in den Antworten vorkommenden Begriffe. Der "enge Filter" entfernt Begriffe ohne offensichtliche Aussagekraft, wie "schon", "werden" oder "sein", ebenso Formulierungen des persönlichen Gesprächs, wie "ich", "ja" oder "glauben" ("Ja, ich glaube, dass..."). Der Filter "nur Hauptworte" zeigt - überraschend - nur die Frequenz der Hauptworte. Ein Klick auf den jeweiligen Balken ruft die entsprechenden Stellen im Gespräch auf, das "x" entfernt den Begriff aus der Reihung.

Ein Unterschied: Kern, Strache und Strolz verwenden oft das "wir", Glawischnig und Stronach eher das ich. Bei Mitterlehner halten sich diese Begriffe die Waage.
Frank Stronach
Matthias Strolz
Eva Glawischnig
Heinz-Christian Strache
Reinhold Mitterlehner
Christian Kern
enger Filter
nur Hauptwörter
Exklusive Worte
Der "Wortschatz" der Interviewten überlappt wenig überraschend (in jedem Gespräch geht es irgendwann um "Österreich" oder "die Regierung"; stop words sind schon entfernt). Interessanter sind daher die exklusiv von einer Person verwendeten Begriffe (untenstehend jeweils zehn Beispiele): Demnach ist es Stronach wichtig zu "analysieren", Strolz will "einbinden", Glawischnig "engagieren" und Strache "sicherstellen". Mitterlehner verwendet eher "anbelangen", Kern möchte "liefern". Einschränkung: Die verwendeten Worte hängen auch von den Fragen der Moderatorin ab.
Stronach
Strolz
Glawischnig
Strache
Mitterlehner
Kern
Stronach
Strolz
Glawischnig
Strache
Mitterlehner
Kern
Wortgruppen, aka "Themen"
Die bisherigen Auswertungen sind technisch vergleichsweise simpel, da sie offensichtlich Vorliegendes zählen (eben z.B. die Wortlänge). Das kann für einen ersten Eindruck hilfreich sein, inhaltlich stößt man schnell an Grenzen. Ein nächster Schritt ist, ähnliche Begriffe und Ausdrücke zu Gruppen zusammenzufassen, um auf Themen rückschließen zu können. Politiker/innen beziehen sich etwa oft auf "die Menschen", die auch "Bürger/innen", "Leute" oder "Österreicher/innen" sein können. Zusammengefasst taucht dieses Thema recht häufig auf.

Die folgende Grafik weist jeweils aus, ob und wie viele Bezüge zu einer Wortgruppe in einer Antwort vorkommen. Dabei können jeweils zwei Themen kombiniert werden, um zu testen, mit welchen anderen Inhalten einzelne Themen verknüpft werden. Auch hier gilt: Die Interviewfragen bestimmen mit, welche Themen angesprochen werden, man kann also nicht einfach sagen, X spricht viel mehr über etwas als Y.

Ein Aber: Das beruht alles auf einer Liste von ähnlichen Begriffen, die beim obigen "Mensch"-Beispiel noch relativ überschaubar ist, sich bei anderen Themen aber beinahe beliebig erweitern lässt (von indirekten und angedeuteten Hinweisen ganz zu schweigen). Zudem sind falsche Treffer schwer zu vermeiden: "Euro" kann ein EU-Bezug sein, aber auch der Verweis auf das Einkommen. Die Zahl der Treffer hängt letzten Endes auch mit der Zahl der verwendeten Schlüsselwörter zusammen (weshalb hier bewusst keine Zahlen angegeben werden), die entsprechenden keywords finden sich unter der Grafik.
Frank Stronach
Matthias Strolz
Eva Glawischnig
Heinz-Christian Strache
Reinhold Mitterlehner
Christian Kern
verwendete keywords:
Positives/Negatives
Zum Schluss die "heikelste" Spielerei: Worte lassen sich nicht nur zählen, man kann ihnen auch positive und negative Bedeutung zuschreiben. Daraus lässt sich zwar kein Rückschluss über die Richtung einer Aussage ziehen (da Verneinungen, indirekte Bedeutungen, Ironie usw. nicht eingerechnet werden), es lässt sich jedoch ein Muster darstellen, das z.B. Häufungen zeigt. Kombiniert mit den oben angewandten Wortgruppen kann man nach Auffälligkeiten suchen.

Die Grafik zeigt positive (blau) und negative (rot) Worte. Es geht dabei nur um den Wortsinn, der Kontext ist nicht berücksichtigt. "Reform" ist an sich ein positives Wort (und wird hier so gezählt), im Gespräch kann freilich "eine Reform, die den Namen nicht verdient" genau das Gegenteil bedeuten. Begriffe wie die "Steuerreform" können zudem individuell unterschiedlich wahrgenommen werden - die eine findet sie gut, der andere schlecht. Die Auswertung versucht daher, nur möglichst eindeutige Begriffe zuzuordnen.

Die Bewertung baut auf dem SentiWS-Wortschatz der Uni Leipzig auf, der leicht adaptiert und um weitere Begriffe aus den Gesprächen ergänzt wurde. Die Liste beinhaltet rund 2.100 negative und rund 2.000 positive Begriffe. Trotz dieser Ausgewogenheit kommen in allen Gesprächen mehr positive Ausdrücke vor, thematisch schwankt das Verhältnis sichtbar. Beide Regierungsvertreter verwenden verhältnismäßig etwas mehr positive Begriffe.
/
Technisches
Ein paar technische Anmerkungen: Eine automatische Textanalyse setzt in vielen Aspekten voraus, dass ein gewisses Textverständnis etabliert wird. Will man etwa Häufigkeiten zählen geht es banal darum, gleiche Wörter in verschiedenen Abwandlungen (z.B. "wählen" und "wählt") zu erkennen. Das kann besser oder schlechter funktionieren, hängt aber vor allem mit einem wachsenden Wortschatz als Basis zusammen. Hier wurde ein eigener solcher Wortschatz in etlichen Durchgängen zusammengestellt, der mit weiteren Gesprächen noch wachsen und damit besser werden sollte. Die jetzigen Daten können sich entsprechend noch leicht ändern.

Die Auswertung erfordert auch direkte Eingriffe: Es ist sinnvoll, sehr häufige Worte wie "der die das" (so genannte stop words) von vorneherein zu entfernen, um inhaltlich wertvollere Begriffe nach vorne zu holen. Die Grenzziehung ist beliebig: Was macht man mit "ich, du, wir"? Für sich genommen sagen sie wenig aus, umgekehrt lässt sich gerade aus der Verwendung von "ich" oder "wir" ein Rückschluss auf die Sprache der Person ziehen (spricht sie viel über sich, oder viel über die Partei/ein Kollektiv?). Anekdotische Anmerkung, das Sprechen von sich selbst in der dritten Person ("dafür steht der XY") hat gefühlt stark nachgelassen.



ORF Sommergespräche 2016, Transkripte von neuwal.com. Webscraping und die Textaufbereitung erfolgt mit Python, die Darstellungen mit D3. Die Berechnung des Venn-Diagramms baut auf diesem Plugin auf. Die verwendeten stop words sind hier einsehbar.

Zur Positiv/Negativ-Bewertung siehe:
R. Remus, U. Quasthoff & G. Heyer: SentiWS - a Publicly Available German-language Resource for Sentiment Analysis.
In: Proceedings of the 7th International Language Ressources and Evaluation (LREC'10), pp. 1168--1171, 2010.

Alle Daten soweit CC BY 3.0 AT