Abruf und Zusammenführung von Metadaten zu Ressourcen aus diversen Open Data Portalen
In diesem Projekt sollen die öffentlich zugänglichen Angaben zu den Inhalten der Open Data Portale abgerufen und in einem gemeinsamen Dataset zur Verfügung gestellt werden.
Mit den gesammelten Daten können:
- Neuzugänge in Portalen gefunden und beurteilt werden
- die verfügbaren Ressourcen anhand ihrer Typen oder Namen gesucht werden.
- Portal-übergreifend bestimmte Ressourcen gefunden und heruntergeladen werden
Aktuell werden in der Implementierung Portale der folgenden Typen abgefragt und ihre Inhalte zusammengeführt
- CKAN Portale, wie z.B. das Transparenzportal Karlsruhe
- DKAN Portale, die eine etwas abgewandelte API im Vergleich zu CKAN verwenden.
- Open Data Portale, die eine weitere API abweichend von CKAN oder DKAN verwenden und auch die Ergebnisse in einer etwas abweichenden Struktur liefern.
Die bisher verwendeten Portale sind über eine Suche im Internet gesammelt und die Liste kann bei Bedarf recht einfach ewrweitert werden. Um Portale anzubinden, die sich einer weiteren API bedienen, müssen größere Teile der Implementierung angepasst oder neu entwickelt werden.
Mit den entwickelten Verarbeitungsprozessen werden die aus den APIs gelieferten Rückmeldungen analog zu den aus CKAN erhaltenen Strukturen aufbereitet, so weit das möglich ist. Das kann aber dazu führen, dass bestimmte Attribute nur für Einträge aus einem bestimmten Typ der Portale gefüllt werden können. Die Ergebnisse werden aktuell hauptsächlich als CSV-Dateien bereitgestellt. Beziehungen zwischen Objekten (Zeilen) aus unterschiedlichen Dateien werden über dafür generierte Schlüsselfelder hergesetllt. So können z.B. alle Ressourcen eines Portals identifiziert werden, aber auch die Ressourcen eines bestimmten Packages oder einer Gruppe.
Der Abruf und die Verarbeitung der Objekte wird über das Tool KNIME ausgeführt. Hier sind mehrere Prozesse entstanden, die die Daten besorgen, bereinigen und aufbereiten bzw. am Ende dann die verschiedenen Quellen miteinander kombinieren und in gemeinsamen Dateien ablegen.
Um zu zeigen, wie man mit den Ergebnissen umgehen kann, wurde eine Beispielauswertung mit dem Tool Power BI Desktop erstellt, die ein Datenmodell aufbaut und darauf Auswertungen zeigt.