Use Case Haushaltsdaten als Linked Data

Phase 1: Status Quo feststellen, vernetzen, Arbeitspakete schnüren

Als Ergebnis eines Beteiligungsworkshops zur Open-Data-Strategie des Landes Berlin stand die Forderung nach mehr Linked Data im Raum - der Berliner Finanz Senat nahm den Ball auf und setzte sich zum Ziel, die bereits existierende Visualisierung der Haushaltsdaten auch im im Hintergrund "schön" zu machen -> im Linked Open Data Format.

In der ersten Phase des Projekts ging es vor allem darum zu schauen, was es schon an Initiativen innerhalb der Verwaltung gab, bei denen Informationen aus Fachverfahren direkt als Linked Data veröffentlicht werden. Zur Bestandsaufnahme gehörte auch der deutschlandweite Blick auf die Arbeit mit Haushaltsdaten und die Identifizierung möglicher Kooperationspartner:innen. 

1. Bestandsaufnahme - alte und aktuelle Projekte

2. Barcamp als Auftakt

Um die Leute, die sich mit dem Thema beschäftigen, zu vernetzen und einen ersten Überblick über den aktuellen Status Quo zu ermitteln, haben wir gemeinsam mit dem Berliner Finanzsenat ein Barcamp ausgerichtet, zu dem Menschen aus der Wissenschaft, Zivilgesellschaft und auch direkt aus der Berliner Haushaltsabteilung eingeladen waren. Die Ergebnisse und Protokolle der einzelnen Beiträge können unserem Etherpad entnommen werden. 

3. Teilnahme am 4. Nationalen Aktionsplan OGP

Gemeinsam mit dem Land Schleswig-Holstein wurde eine Teilnahme am 4. NAP OGP vereinbart. Der aktuelle Stand auf der Projektseite kann hier eingesehen werden. Im NAP heißt es:

Die Berliner Haushaltsdaten werden künftig als Linked Open Data (LOD) auf dem Open-Data-Portal des Landes zur Verfügung stehen. Ziel ist eine Verknüpfung, die Vollständigkeit und eine verbesserte Qualität der Daten. Gemeinsam mit dem Land Schleswig-Holstein soll zudem der Erfahrungsaustausch, die Verknüpfung und Skalierung des Vorhabens in die Wege geleitet werden.

4. "Ins Machen kommen"

Der aktuelle Stand des Projekts wurde bei der AG Open Data des Landes Berlin im März vorgestellt. Die Präsentation dazu findet sich hier: AGOpenDataLOD.pdf. In einem nächsten Schritt geht es um das Mapping der Daten, bei dem wiederum ein Austausch mit Expert:innen durchgeführt wird.

Phase 2: Austausch, Vokabular, Veröffentlichung

1. Das passende Format für Haushaltsdaten

Zentral für die zweite Phase war eine Bestandsaufnahme mit den beteiligten Parteien. Dabei ging es konkret in ein moderiertes Gespräch mit Expert:innen aus der Haushaltsabteilung und den Menschen, die mit der technischen Umsetzung befasst sind.

Ausschnitt-vom-Muralboard

Bild: Ausschnitt aus dem gemeinsamen Arbeitsplan

Bei dem Gespräch wurden Unterschiede und Gemeinsamkeiten zwischen den Haushaltsdatensätzen der zwei Länder identifiziert und ein in Schleswig-Holstein entwickeltes Python-Skript für die Umwandlung von einer CSV zur RDF dem Team in Berlin zur Verfügung gestellt. Mit einigen Anpassungen konnten so die Haushaltsdaten beider Bundesländer in ein RDF-Format gegossen werden. Das Prinzip dahinter erklärt Jesper Zedlitz von der Staatskanzlei Schleswig-Holstein in einem Blogbeitrag. Für die Haushaltsdaten wurde sich an der existierenden Vorarbeit von Openspending - Linkedspending orientiert, die bereits vor mehr als zehn Jahren Haushaltsdaten in RDF Data Cubes modelliert haben. 

2. Verlinkung ermöglichen - gemeinsames Vokabular für Haushaltsdaten entwickeln

Im Rahmen des gemeinsamen Gesprächs wurde festgestellt, dass für die Daten aus den Landeshaushalten bislang kein passendes Vokabular, das die eigentliche Verlinkung ermöglicht, existiert und deshalb selbst auf Basis etwa der Ontologie des EU Haushalts und den Beispielen von Linkedspending erstellt werden muss. Bei der Datenmodellierung geht es um die Definition von Datenpunkten und ihrer Bedeutungen. In einem Vokabular wird mithilfe von Klassen und Eigenschaften festgelegt, welche Beziehungen zwischen diesen Datenpunkten möglich sind. Ziel ist es, ein konsistentes Schema für die Identifizierung von Daten zu entwickeln, das die Eindeutigkeit sicherstellt und gleichzeitig flexibel genug ist, um regionale und lokale Besonderheiten zu berücksichtigen.  

Screenshot 2025-04-10 174542.png

Bild: Beispiel für den Vergleich verschiedener Bereiche der Haushaltsdaten

Durch den Austausch zwischen den Haushaltsabteilungen der beiden Länder wurde festgelegt, worin der gemeinsame Teil zwischen den Haushaltsdatensätzen liegt oder wo gleiche Posten schlicht anders benannt sind. Für allgemeine Informationen sollte auf bereits etablierte Standards für Felder wie Jahreszahl etc. oder den Standard SDMX für statische Daten zurückgegriffen werden und so ein allgemeines Vokabular für Haushaltsdaten entstehen, das jeweils um landesspezifische Teile erweiterte werden kann. 

3. Von RDF zu URIs

Die Definition von URIs bilden den Kern von Linked Open Data. Mittels einer URI lassen sich Daten online eindeutig identifizieren und wiederverwenden. Bei der Diskussion über die Verwendung von URIs zur Identifikation von Datensätzen zeigte sich der Ansatz, dass jede Verwaltungseinheit ihre eigenen Namensräume verwenden sollte, um Klarheit und Ordnung in der Datenorganisation zu gewährleisten. Der Namensraum gibt dabei Hinweis auf die Herkunft der Datenpunkte/des Vokabulars. Für die Haushaltsdaten hieß das konkret, dass die landesspezifischen Daten auf den Namespace des des jeweiligen Bundeslands verweisen, während für die übergreifenden Daten ein einheitlicher "Bundes"-Namespace genutzt wird. Mangels einer existierenden Basis aus dem Bund, wurde für das allgemeine Haushaltsvokabular die Domain des zivilgesellschaftlichen Projekts offenerhaushalt.de genutzt. 

Ein Weg, um aus existierenden RDFs diese Identifier zu kreieren und über Github zugänglich zu machen, wurde von BerlinOnline entwickelt. Mit Jinja-RDF können leicht statische Seiten erzeugt und angepasst werden. Da Berlin derzeit nicht über einen Triple Store verfügt, wurden die Haushaltsdaten selbst ebenfalls bei Github veröffentlicht. 

Screenshot 2025-04-10 183855.png