Use Case Haushaltsdaten als Linked Data Phase 1: Status Quo feststellen, vernetzen, Arbeitspakete schnüren Als Ergebnis eines Beteiligungsworkshops zur Open-Data-Strategie des Landes Berlin stand die Forderung nach mehr Linked Data im Raum - der Berliner Finanz Senat nahm den Ball auf und setzte sich zum Ziel, die bereits existierende Visualisierung der Haushaltsdaten auch im im Hintergrund "schön" zu machen -> im Linked Open Data Format. In der ersten Phase des Projekts ging es vor allem darum zu schauen, was es schon an Initiativen innerhalb der Verwaltung gab, bei denen Informationen aus Fachverfahren direkt als Linked Data veröffentlicht werden. Zur Bestandsaufnahme gehörte auch der deutschlandweite Blick auf die Arbeit mit Haushaltsdaten und die Identifizierung möglicher Kooperationspartner:innen. 1. Bestandsaufnahme - alte und aktuelle Projekte Die Erfahrungen mit dem Projekt offener Haushalt haben gezeigt, dass es eine initiale Bereitschaft von Projektpartnern braucht, um nachhaltige Strukturen dafür innerhalb der Verwaltung aufzubauen - das heißt, eine zentrale Ansprechperson und technische Begleitung, damit die Erfahrungen und das Wissen innerhalb der Verwaltung bleiben und für Folgeprojekte und interessierte Menschen aus anderen Abteilungen genutzt werden kann. Auf internationaler Ebene gab es mit dem "Linked Spending" als Teil des Open Spending Projekts bereits 2014 einen Ansatz, samt Vokabular, um Haushalte europaweit verlinkbar zu machen. Nach dieses anfänglichen Hochtagen von Linked Data passierte erst einmal nichts  - die automatisch umgewandelten Datensätze können aber als Skizze für das Vorhaben dienen. Zudem wurde ein Paper veröffentlicht, das die Umwandlung von Haushaltsdaten ein Datacube behandelt. In Thüringen forschen Marianne Mauch von der Uni Jena und Felicitas Löffler vom Finanzministerium Thüringen an Wissensgraphen für die Verwaltung. Der Projektstand lässt sich im Kurformat hier, für einen konkreten Fall hier, bzw. mit etwas mehr Kontext eingebettet im Workshop von der Piazza-Konferenz nachvollziehen. Die Senatskanzlei Schleswig-Holstein hat in Person von Jesper Zedlitz in den letzten Jahren bereits an der Veröffentlichung von Daten als Linked Open Data gearbeitet. Sein Interesse an Haushaltsdaten führte auch dazu, dass das Land Schleswig Holstein als Projektpartner gemeinsam mit der Senatsverwaltung für Finanzen in Berlin daran arbeitet, die Haushaltsdaten der beiden Länder verlinkbar zu machen und an einer Ontologie zu arbeiten. Die ODIS in Berlin ist seit 2023 damit beschäftigt, an einer Lösung zu arbeiten, wie man Organigramme in ein maschinenlesbares und gleichzeitig verlinkbares Format umwandeln kann. Die eigene Auseinandersetzung mit dem Thema Linked Data und die dazugehörige steile Lernkurve hat das Team in einer tollen Präsentation festgehalten, die sehr niedrigschwellig und anschaulich Linked Data erklärt und unbedingt empfohlen ist. Die von der ODIS schon erstellte Ontologie für die Berlin-spezifischen Einrichtungen und Positionen, kann als Grundlage für Knud Möller von BerlinOpenData hat bereits mit der Veröffentlichung von Linked Data über Github experimentiert. Seine Überlegungen gibt es als Präsentation hier - ein Blick in das Repository kann hier geworfen werden. 2. Barcamp als Auftakt Um die Leute, die sich mit dem Thema beschäftigen, zu vernetzen und einen ersten Überblick über den aktuellen Status Quo zu ermitteln, haben wir gemeinsam mit dem Berliner Finanzsenat ein Barcamp ausgerichtet, zu dem Menschen aus der Wissenschaft, Zivilgesellschaft und auch direkt aus der Berliner Haushaltsabteilung eingeladen waren. Die Ergebnisse und Protokolle der einzelnen Beiträge können unserem Etherpad entnommen werden. 3. Teilnahme am 4. Nationalen Aktionsplan OGP Gemeinsam mit dem Land Schleswig-Holstein wurde eine Teilnahme am 4. NAP OGP vereinbart. Der aktuelle Stand auf der Projektseite kann hier eingesehen werden. Im NAP heißt es: Die Berliner Haushaltsdaten werden künftig als Linked Open Data (LOD) auf dem Open-Data-Portal des Landes zur Verfügung stehen. Ziel ist eine Verknüpfung, die Vollständigkeit und eine verbesserte Qualität der Daten. Gemeinsam mit dem Land Schleswig-Holstein soll zudem der Erfahrungsaustausch, die Verknüpfung und Skalierung des Vorhabens in die Wege geleitet werden. 4. "Ins Machen kommen" Der aktuelle Stand des Projekts wurde bei der AG Open Data des Landes Berlin im März vorgestellt. Die Präsentation dazu findet sich hier: AGOpenDataLOD.pdf. In einem nächsten Schritt geht es um das Mapping der Daten, bei dem wiederum ein Austausch mit Expert:innen durchgeführt wird.Phase 2: Austausch, Vokabular, Veröffentlichung 1. Das passende Format für Haushaltsdaten Zentral für die zweite Phase war eine Bestandsaufnahme mit den beteiligten Parteien. Dabei ging es konkret in ein moderiertes Gespräch mit Expert:innen aus der Haushaltsabteilung und den Menschen, die mit der technischen Umsetzung befasst sind. Bild: Ausschnitt aus dem gemeinsamen Arbeitsplan Bei dem Gespräch wurden Unterschiede und Gemeinsamkeiten zwischen den Haushaltsdatensätzen der zwei Länder identifiziert und ein in Schleswig-Holstein entwickeltes Python-Skript für die Umwandlung von einer CSV zur RDF dem Team in Berlin zur Verfügung gestellt. Mit einigen Anpassungen konnten so die Haushaltsdaten beider Bundesländer in ein RDF-Format gegossen werden. Das Prinzip dahinter erklärt Jesper Zedlitz von der Staatskanzlei Schleswig-Holstein in einem Blogbeitrag. Für die Haushaltsdaten wurde sich an der existierenden Vorarbeit von Openspending - Linkedspending orientiert, die bereits vor mehr als zehn Jahren Haushaltsdaten in RDF Data Cubes modelliert haben. 2. Verlinkung ermöglichen - gemeinsames Vokabular für Haushaltsdaten entwickeln Im Rahmen des gemeinsamen Gesprächs wurde festgestellt, dass für die Daten aus den Landeshaushalten bislang kein passendes Vokabular, das die eigentliche Verlinkung ermöglicht, existiert und deshalb selbst auf Basis etwa der Ontologie des EU Haushalts und den Beispielen von Linkedspending erstellt werden muss. Bei der Datenmodellierung geht es um die Definition von Datenpunkten und ihrer Bedeutungen. In einem Vokabular wird mithilfe von Klassen und Eigenschaften festgelegt, welche Beziehungen zwischen diesen Datenpunkten möglich sind. Ziel ist es, ein konsistentes Schema für die Identifizierung von Daten zu entwickeln, das die Eindeutigkeit sicherstellt und gleichzeitig flexibel genug ist, um regionale und lokale Besonderheiten zu berücksichtigen. Bild: Beispiel für den Vergleich verschiedener Bereiche der Haushaltsdaten Durch den Austausch zwischen den Haushaltsabteilungen der beiden Länder wurde festgelegt, worin der gemeinsame Teil zwischen den Haushaltsdatensätzen liegt oder wo gleiche Posten schlicht anders benannt sind. Für allgemeine Informationen sollte auf bereits etablierte Standards für Felder wie Jahreszahl etc. oder den Standard SDMX für statische Daten zurückgegriffen werden und so ein allgemeines Vokabular für Haushaltsdaten entstehen, das jeweils um landesspezifische Teile erweiterte werden kann. 3. Von RDF zu URIs Die Definition von URIs bilden den Kern von Linked Open Data. Mittels einer URI lassen sich Daten online eindeutig identifizieren und wiederverwenden. Bei der Diskussion über die Verwendung von URIs zur Identifikation von Datensätzen zeigte sich der Ansatz, dass jede Verwaltungseinheit ihre eigenen Namensräume verwenden sollte, um Klarheit und Ordnung in der Datenorganisation zu gewährleisten. Der Namensraum gibt dabei Hinweis auf die Herkunft der Datenpunkte/des Vokabulars. Für die Haushaltsdaten hieß das konkret, dass die landesspezifischen Daten auf den Namespace des des jeweiligen Bundeslands verweisen, während für die übergreifenden Daten ein einheitlicher "Bundes"-Namespace genutzt wird. Mangels einer existierenden Basis aus dem Bund, wurde für das allgemeine Haushaltsvokabular die Plattform der Open Knowledge Foundation Deutschland genutzt. Ein Weg, um aus existierenden RDFs diese Identifier zu kreieren und über Github zugänglich zu machen, wurde von BerlinOnline entwickelt. Mit Jinja-RDF können leicht statische Seiten erzeugt und angepasst werden. Da Berlin derzeit nicht über einen Triple Store verfügt, wurden die Haushaltsdaten selbst ebenfalls bei Github veröffentlicht. Phase 3: Community of Practice Herzlichen Glückwunsch, Sie haben ein Infrastrukturprojekt abgeschlossen - und jetzt? Linked Data lebt vom Austausch – dieser sollte auch rund um die Veröffentlichunggesucht werden. Zum Abschluss des Projekts trafen sich erneut über 20 Personen aus Verwaltung, Politik, Wissenschaft und Zivilgesellschaft in den Räumlichkeiten der Senatsverwaltung für Finanzen in Berlin um über Linked Data zu sprechen. Im Vergleich zur vorherigen Ausgabe, gibt es nun den ersten kleinen Wissensgraphen im Land Berlin und ein Vokabular für Landeshaushaltsdaten. Für beide Fälle wurde Einblick in die Prozesse gegeben und zudem Weiterentwicklungen und mögliche Anwendungen thematisiert. Ein Bericht sowie das vollständige Protokoll findet sich hier. Bild: Barcamp in den Räumlichkeiten der Senatsverwaltung für Finanzen Berlin © CC-BY SA 4.0 - Julia Schabos Das Barcamp hat gezeigt, wie wichtig der persönliche Austausch bei vermeintlich trockenen Infrastrukturthemen wie Linked Data sein kann. Ziel muss es sein, neben den stetig wachsenden Wissensgraphen auch eine Community of Practice zu etablieren, in der der kollaborative Ansatz von Linked Data gelebt wird. Zwei Jahre LOD-Arbeit - viele offene Fragen Als zentrale Erkenntnis aus zwei Jahren Projektarbeit bleibt, dass sich behördenübergreifende Zusammenarbeit und eine frühe Einbeziehung der Zivilgesellschaft lohnt.  Zudem wurde mit dem aufgebauten Wissen in den Verwaltungen der Grundstein für zukünftige Datenprojekte gelegt. Weil bei der Senatsverwaltung für Finanzen eigene Data Scientists tätig sind, konnte das Projekt ohne extra Ausschreibung durchgeführt werden. Die so gewonnene Umsetzungspraxis kann auch ein Anknüpfungspunkt für weitere Stellen aus dem Land Berlin sein. Dennoch bleiben auch viele Fragen offen - gerade was den Support und die Infrastruktur für Linked Data von zentraler Stelle angeht.  Wohin soll etwa für bundesweit genutzte Konzepte im Haushalt wie z. B. „Titel“ verwiesen werden? Aktuell gibt es keinen einheitlichen Namespace der Bundesverwaltung, so dass wir als vorübergehenden Workaround das Vokabular selbst bei der OKF hosten. In der Schweiz gibt es beispielsweise mit ld.admin.ch eine solche Stelle, mit dem einheitliche und stabile Identifier für Daten aus der Verwaltung gewährleistet werden. Neben dem Ort stellt sich auch die Frage, wer das Vokabular zukünftig pflegt – ist etwa grundsätzlich die FitKo zuständig, die zwischen den Verwaltungsebenen koordiniert oder in diesem Fall das Bundesfinanzministerium, das den Standard vorgibt? Im Fall des vorliegenden Haushaltsdatenvokabulars haben wir das Hosting derzeit übernommen – sehen hier aber die Behörden in der Pflicht. Eine Checkliste, damit andere nicht bei Null anfangen müssen Wir glauben, dass semantisch strukturierte Daten für staatliche Stellen ein großes Potential bieten. Deshalb haben wir als zivilgesellschaftliche Organisation haben den LOD-Prozess für die Haushaltsdaten beratend begleitet - und möchten wichtige Punkte nun in einer kurzen Übersicht zur Verfügung stellen. In der Checkliste finden sich Fragen, die man sich an den verschiedenen Zeitpunkten stellen könnte. Akteur:innen aus der Verwaltung müssen so nicht bei Null anfangen, wenn sie sich ebenfalls mit Linked Data befassen möchten. Neben dem lebenden Dokument auf dieser Seite möchten wir mit der Publikation einen kleinen Beitrag zur Community of Practice leisten und freuen uns über Anfragen weiterer Bundesländer und Verwaltungen die sich anschließen möchten. Download Checkliste