DCAT-AP.de
DCAT-AP bietet eine gemeinsame Spezifikation für die Beschreibung öffentlicher Datensätze in Europa und ermöglicht den Austausch von Datensatzbeschreibungen zwischen Datenportalen. DCAT-AP ermöglicht:
- Datenkataloge beschreiben ihre Datensatzsammlungen mithilfe einer standardisierten Beschreibung und behalten gleichzeitig ein eigenes System zur Dokumentation und Speicherung bei.
- Inhaltsaggregatoren wie das Europäische Datenportal aggregieren solche Beschreibungen in einem einzigen Zugriffspunkt.
- Datenkonsumenten können Datensätze einfacher von einem einzigen Zugriffspunkt aus finden.
DCAT-AP.DE repräsentiert die deutsche Erweiterung des europäischen Datenkatalog-Standards DCAT-AP (Data Catalog Vocabulary – Application Profile). Dieser Metadatenstandard wurde speziell für die interoperable und standardisierte Beschreibung von Datenkatalogen und offenen Daten in Europa entwickelt. Für ein Reallabor, definiert als ein Experimentierraum zur Erprobung innovativer Ansätze, kommt DCAT-AP.DE eine zentrale Bedeutung zu.
- Dateninteroperabilität: In einem Reallabor werden oftmals Daten aus unterschiedlichen Quellen benötigt. DCAT-AP.DE ermöglicht eine standardisierte Beschreibung und Vernetzung dieser Datenquellen, was die Zusammenarbeit erleichtert.
- Ein weiterer Vorteil besteht in der Nachhaltigkeit dieses Standards, der eine bessere Dokumentation und Nachnutzbarkeit der im Reallabor gesammelten oder genutzten Daten ermöglicht. Ein wesentlicher Aspekt ist zudem die Förderung von Innovation durch offene Daten. In diesem Zusammenhang ist DCAT-AP.DE ein wichtiger Baustein, um diese Daten für Dritte zugänglich und nutzbar zu machen.
- Effizienz: Die Verwendung standardisierter Metadaten ermöglicht eine Beschleunigung der Prozesse rund um die Datensuche und -analyse.
Verwendungen und Spezialisierungen von DCAT, DCAT-AP und DCAT-AP.de
Verwendungen und Spezialisierungen gibt einen Überblick über die Nutzung der deutschen, EU und W3C Spezifikationen zu erhalten und die Möglichkeit des Community-Building zu fördern und das Verständnis über die Bedeutung von DCAT-AP und DCAT-AP.de ausserhalb des GovData Horizontes zu schärfen.
DCAT-Vaidator
Er zeigt Fehler oder Warnungen von Klassen an, wenn jeweils obligatorische oder erforderliche Eigenschaften fehlen. Diese Fehler und Warnungen basieren auf den von einem Schema festgelegten Regeln . Die Validierung kann einfach durch manuelles Einfügen des Feeds, Hochladen einer Datei oder Einfügen einer URI erfolgen.
Abb.: Metadatenstandard DCAT-AP.de, eigene Darstellung (CC-BY-SA-4.0)
DCAT-AP.de
Was ist DCAT-AP.de?
DCAT-AP.de ist die deutsche Adaption des europäischen Metadatenstandards DCAT-AP (Data Catalog Application Profile). Es definiert:
- Einheitliche Metadatenfelder für Datensätze (Titel, Beschreibung, Zeitraum, Lizenz, etc.)
- Vokabulare und Taxonomien für konsistente Begrifflichkeiten
- Technische Schnittstellen für automatisierten Datenaustausch
- Qualitätskriterien für Metadatenbeschreibungen
Aktuelle Rolle und Verbreitung
Verpflichtend eingesetzt:
- GovData.de (Datenportal für Deutschland) – zentrale Bundesplattform
- Open-Data-Portale der Bundesländer (inkl. Rheinland-Pfalz: daten.rlp.de)
- Kommunale Open-Data-Portale (soweit vorhanden)
- Forschungsdatenportale (zunehmend, aber nicht flächendeckend)
Rechtliche Verankerung:
- Open Data Gesetz (2017): Bundesbehörden müssen Metadaten nach DCAT-AP.de bereitstellen
- E-Government-Gesetze der Länder: Ähnliche Verpflichtungen auf Landesebene
- INSPIRE-Richtlinie: Für Geodaten europaweit verpflichtend
Probleme in der Praxis
- Fragmentierte Implementierung
- Unterschiedliche Versionsnutzung: DCAT-AP.de 1.0.2 vs. 2.0 – nicht vollständig kompatibel
- Selektive Umsetzung: Viele Portale nutzen nur Basis-Felder, nicht erweiterte Metadaten
- Inkonsistente Qualität: Metadaten oft unvollständig oder fehlerhaft
- Keine KI-spezifischen Erweiterungen: Standard primär für Open Data, nicht für KI-Modelle und -Infrastrukturen
- Fehlende Durchsetzung
- Keine Sanktionen bei Nicht-Einhaltung: Standard empfohlen, aber nicht erzwungen
- Qualitätskontrolle unzureichend: Niemand prüft systematisch die Metadatenqualität
- Legacy-Systeme: Altportale oft nicht DCAT-AP.de-konform
- Begrenzte Reichweite
- Nur Open Data erfasst: Nicht-öffentliche Forschungsdaten bleiben außen vor
- Forschungseinrichtungen unzureichend eingebunden: DFKI, Fraunhofer, Max-Planck nur teilweise dabei
- Private Akteur:innen fehlen: Unternehmensdaten nicht erfasst
- KI-Spezifika nicht abgebildet: Keine Metadaten für Modelle, Training-Daten, Compute-Ressourcen
Vorhandene Portal-Infrastrukturen
Bundesebene
- GovData.de
- Zweck: Zentrale Sammelstelle für Open Government Data
- Technologie: CKAN-basiert, DCAT-AP.de 2.0, DCAT-AP.de Spezifikation 3.0
- Harvesting: Automatisches Einsammeln von Metadaten aus Landes- und Kommunalportalen
- Problem: Fokus auf Verwaltungsdaten, nicht auf KI-Ökosystem
- Dashboard Digitale Verwaltung)
- Zweck: Zentrale Koordination der Datenstrategie der Bundesregierung
- Status: Im Aufbau
- Potenzial: DCAT-AP.de-konforme Metadaten aggregieren
- Unsicherheit: Governance-Modell noch unklar, keine Anbindung an Datensatz-Suchmaschine (Mission KI)
- Mission KI - Datensatz-Suchmaschine
- Zweck: Auffindbarkeit von KI-relevanten Datensätzen
- Besonderheit: Speziell für Machine Learning konzipiert
- Technologie: Vermutlich Elastic-basierte Suche mit KI-Metadaten
- Problem: Parallel zu GovData, keine klare Abgrenzung
- Weitere Bundesportale
- Digital Hub Initiative: Innovationsökosystem, aber keine Datenplattform
- KI-Landkarte: Mapping von KI-Aktivitäten, aber kein Metadaten-Standard
- NFDI-Portale: Forschungsdateninfrastrukturen mit eigenen Standards
Landesebene RLP
daten.rlp.de
- Status: DCAT-AP.de-konform
- Anbindung: Wird von GovData.de geharvested
- Inhalt: Primär Verwaltungsdaten
- Defizit: Keine systematische Erfassung von Forschungsdaten oder KI-Projekten
Weitere RLP-Portale (nicht integriert)
- Forschungsportal RLP: Separate Datenbank für Forschungsprojekte
- Hochschulportale: RPTU, Hochschulen mit eigenen Publikationsrepositorien
- Smart-City-Dashboards: Kommunen mit eigenen Lösungen
Forschungsinfrastrukturen
NFDI (Nationale Forschungsdateninfrastruktur)
- Mehrere Konsortien: NFDI4DataScience, NFDI4Culture, etc.
- Eigene Metadatenstandards: Oft fachspezifisch, nicht unbedingt DCAT-AP.de
- Föderierte Suche: Ansätze vorhanden, aber fragmentiert
Möglichkeiten zur Zusammenführung
Technische Lösungsansätze
- Föderierte Metadaten-Harvesting-Architektur
Konzept: Zentrale Plattform sammelt automatisch Metadaten aus dezentralen Quellen:
- Semantic Web und Knowledge Graphs
Konzept: Verlinkung von Metadaten über semantische Technologien
Technologien:
- RDF/OWL: W3C-Standards für semantische Beschreibungen
- SPARQL: Abfragesprache für verknüpfte Daten
- Linked Open Data (LOD): Prinzipien für vernetzte Datenbestände
Anwendung:
Vorteile:
- Automatische Entdeckung von Zusammenhängen
- Intelligente Suchfunktionen
- Nachvollziehbarkeit von Datenflüssen
Herausforderungen:
- Hohe Einstiegshürde
- Komplexe Ontologie-Entwicklung notwendig
- Performance-Probleme bei großen Graphen
- API-Gateway und Microservices-Architektur
Konzept: Zentrale API-Schicht vor dezentralen Services
Technische Umsetzung:
- CKAN Harvester Extension: Automatisches Einsammeln von DCAT-AP.de-konformen Metadaten
- OAI-PMH Protocol: Für wissenschaftliche Repositorien
- REST APIs: Für moderne Portale mit eigenen APIs
- Scheduled Crawling: Regelmäßige Aktualisierung (täglich/wöchentlich)
Vorteile:
- Dezentrale Datenhaltung bleibt erhalten (Souveränität)
- Zentrale Suchbarkeit wird ermöglicht
- Automatisierung reduziert Pflegeaufwand
Herausforderungen:
- Qualitätssicherung der geernteten Metadaten
- Umgang mit Duplikaten
- Performance bei großen Datenmengen
- Single-Sign-On und föderiertes Identity Management
Konzept: Einmalige Anmeldung für Zugriff auf alle Portale
Technologien:
- OpenID Connect / OAuth 2.0: Moderne Authentifizierungsstandards
- SAML 2.0: Etabliert im Hochschul- und Behördenumfeld
- eduGAIN: Föderiertes Identity Management für Forschung und Bildung
- ELSTER-Zertifikate: Für behördliche Anwendungen
Umsetzungsbeispiel:
Vorteile:
- Nutzerfreundlichkeit drastisch erhöht
- Reduzierte Verwaltungskosten
- Einheitliches Berechtigungsmanagement