Die Daten von data.gv.at
data.gv.at ist eine zentrale Plattform für Open Data in Österreich, konkret für Daten des öffentlichen Sektors - und damit eine wichtige Anlaufstelle für alle, die mit Daten arbeiten. Was der dortige Fundus alles bietet, sollen die folgenden Visualisierungen ein wenig beleuchten.

Derzeit (Stand 18. November 2021) sind über 34.000 Datensätze verfügbar. Thematisch dominiert der Bereich „Finanzen und Rechnungswesen“ mit gut 29.000 Einträgen. Der Grund dafür sind die Rechnungsabschlüsse und Voranschläge der österreichischen Gemeinden, die als open data von offenerhaushalt.at über mehrere Jahre veröffentlicht wurden und werden. Mehr als 2.000 Gemeinden * mehrere Jahre, da kommt einiges zusammen.

Abseits davon gibt es Datensätze insbesondere in den Bereichen Verwaltung und Politik, Umwelt, (sonstigem) Finanz- und Rechnungswesen sowie Geographie und Planung.
Die Entwicklung der Gesamtzahl der Datensätze spiegelt den großen Anteil der Finanzinhalte naturgemäß wider. Doch auch zwischen diesen Sprüngen ist die Menge der Daten kontinuierlich gewachsen. Nicht vergessen darf man bei der Darstellung, dass einige der Datensätze laufend erweitert werden.
Rechnungsabschlüsse können interessant sein, in Sachen Metadaten - also Infos zu den Daten selbst - ist die Varianz enden wollend. Die folgende Aufgliederung beschränkt sich daher auf die übrigen Inhalte.

Eine erste Frage ist, wer diese Datensätze überhaupt zur Verfügung stellt. Die zahlenmäßig größten Veröffentlicher sind Wien, Engerwitzdorf und Linz. Nach dem Zeitpunkt der (erstmaligen) Veröffentlichung kamen 2019, 2014 und 2018 verhältnismäßig viele Daten zum Angebot dazu.

In der Grafik können die Daten sortiert und gefiltert werden. Ein Doppelklick auf einen Datenpunkt führt zur entsprechenden Seite. Die Filterung nach Schlagworten verwendet die verfügbaren tags, die nicht ganz einheitlich sind.
sortieren
Veröffentlicht von
Jahr der Erstellung
Anzahl Anwendungen
filtern
hat Anwendung
Reset
Veröffentlicher
angelegt
zuletzt aktualisiert
Kategorien
Zahl der Anwendungen
Datensätze der Gruppe
Ein Datensatz kann viele so genannte Ressourcen vereinen, das sind die konkreten Dateien, die zum Download angeboten werden. Oftmals sind das dieselben Daten in verschiedenen Formaten, teilweise Dokumentationen, teilweise Beispiele.

Am häufigsten angeboten werden „comma separated values”, oder „csv”, gefolgt von SHP-Dateien, die für Geodaten relevant sind. Überhaupt beziehen sich die meisten der unten dargestellten Kategorien auf unterschiedliche Formate von geographischen Daten (die ihrerseits teilweise auch wieder als .csv vorliegen). Die entsprechenden Kategorien wurden teilweise zusammengefasst, da die Angaben zu den Dateien nicht einheitlich sind.
Rund 90 Prozent der Datensätze beziehen sich zeitlich auf Inhalte ab dem Jahr 2000. Es gibt aber auch Einträge, die weiter zurückreichen, das älteste Beispiel etwa auf das Jahr 900.

Unten sind alle Daten angeführt, die zumindest ihren Startpunkt vor dem 20. Jahrhundert haben. Das sind insbesondere Stadtpläne und Bevölkerungszahlen.
Nicht jeder Datensatz gibt einen punktuellen Ist-Stand wieder, sondern auch mehrjährige Zeitreihen - und die erstrecken sich durchaus über einige Jahrzehnte (und vereinzelt Jahrhunderte).

Die Grafik zeigt die 20 (abgeschlossenen) Datensätze mit der längsten Laufzeit. Nicht berücksichtigt sind noch laufende Datensammlungen, einmalige Daten mit langer Gültigkeit (z.B. Bezirkseinteilungen) sowie jene Datensätze, die keinen Start- oder Endzeitpunkt angeben.
Die Daten sind die eine Sache, ebenso interessant ist es, was daraus gemacht wird. data.gv.at bildet diese Nutzung in einem Anwendungsverzeichnis ab. Die Einreichung dort ist freiwillig, man kann auf dieser Basis also nicht genau sagen, welche Datensätze tatsächlich an welcher Stelle in welchem Umfang verwendet werden.

Dennoch lassen sich einige Rückschlüsse ziehen: Es gibt zahlreiche 1:1-Beziehungen, also Anwendungen, die nur einen Datensatz nutzen bzw. Datensätze, die von nur einer Anwendung eingesetzt werden.

Daneben werden einzelne Datensätze wie etwa basemap.at von sehr vielen Anwendungen genutzt. Applikationen wie offenevergaben.at beziehen sich wiederum auf sehr viele Datensätze. Ein großer Cluster besteht zudem aus Datensätzen und Anwendungen mit Wien-Bezug.

Die Netzwerkgrafik zeigt die entsprechenden Beziehungen zwischen Datensätzen und Anwendungen. Es werden nur Anwendungen von derzeit existierenden Datensätzen gezeigt, nicht berücksichtigt wird, ob die jeweilige Anwendung noch existiert. Ein Doppelklick führt wiederum zur entsprechenden Seite.
Die Verbindungen zwischen Anwendungen und Daten lassen sich noch anders darstellen, etwa nach dem Zeitpunkt der Veröffentlichung, nach dem Typ der Anwendung oder dem Themengebiet der Daten.

Als Beispiel: Filtert man das Angebot nach „Gesundheit“ (<- klicken), dann wird gut sichtbar, welchen Schwung an Anwendungen die Veröffentlichung von Corona-Daten (und wohl die Pandemie an sich) ab 2020 bewirkt hat.

Datensätze werden in ihrem Bestehen teilweise neu angelegt (mit neuem Erstellungsdatum). Daher greifen im Folgenden manche Anwendungen auf Daten „in der Zukunft” zu.
Bleibt nur mehr die Frage: Wie oft muss man „Daten*” sagen, wenn man über Daten spricht? Gemessen an dieser Seite, tatsächlich Mal, was rund aller Wörter entspricht.