Skip to main content

2017 | Buch

Die Vermessung des Datenuniversums

Datenintegration mithilfe des Statistikstandards SDMX

verfasst von: Reinhold Stahl, Dr. Patricia Staab

Verlag: Springer Berlin Heidelberg

insite
SUCHEN

Über dieses Buch

Anschaulich und locker geschrieben, bietet dieses Buch eine verständliche Einführung in die Organisation und Integration moderner Datenwelten und erläutert den Beitrag des in der Statistik gängigen ISO-Standards SDMX. Es ist somit ein Muss für Datenexperten und solche, die es noch werden wollen.

Heutzutage wird der berufliche und private Alltag immer mehr durch explosiv wachsende Datenwelten bestimmt. Das Datenwachstum wird durch Suchmaschinen und soziale Netzwerke, aber auch neue technische Möglichkeiten wie Big Data befeuert. Es birgt eine große Chance; aber ganz gleich, ob die Blockchain-Revolution vorangetrieben werden soll oder Smartphones noch smarter gemacht werden sollen, der Erfolg steht und fällt mit der Frage, wie gut es gelingt, die benötigten Daten zu integrieren – sie zu sammeln, zu verknüpfen und auszuwerten. Grundlegend dabei ist die Einführung eines übergreifenden Ordnungssystems in Verbindung mit einer Standardisierung der Datenstruktur.

Die Autoren zeigen anhand von Beispielen aus dem Alltag, wie die Konzepte der Statistik die Basis für eine universelle und standardisierte Bereitstellung von beliebigen Informationen bieten. Sie stellen den internationalen Statistik-Standard SDMX (Statistical Data and Metadata Exchange) vor und zeigen, welche tiefgreifenden Veränderungen durch die Einführung dieses Standards und des damit verbundenen Ordnungssystems für die internationale Statistik-Community möglich waren.

Inhaltsverzeichnis

Frontmatter

Mit Standardisierung zur umfassenden Datenwelt

Frontmatter
1. Ausgangslage, Vision und Wegbeschreibung
Zusammenfassung
Das weltweit verfügbare Datenmaterial vervielfacht sich rasant, gleichzeitig steigt die Nachfrage nach immer neuen und feingliedrigeren Datensammlungen. In den Unternehmen wächst das Bewusstsein darüber, auf einem nicht optimal genutzten Datenschatz zu sitzen. Doch liegen die Datenbestände dort meist in getrennten Datensilos. Deshalb leisten viele Firmen und Organisationen große Anstrengungen zur Datenintegration, zur Zusammenführung der in den Silos liegenden Schätze zu einer verknüpften, hochwertigen Datenwelt.
Für die Zusammenführung wird ein Ordnungssystem benötigt, ein Klassifikationsstandard für Daten, damit die Dinge zueinander passen. In der Statistik wird der weltweite Datenstandard SDMX intensiv genutzt, um für beliebige Phänomena Datenstrukturen zu definieren und darauf aufbauend Datenaustauschprozesse, Datensammlungen und Datenanalyseprodukte zu entwickeln. Wir sind überzeugt, dass dieser Standard auch in anderen Themenbereichen die Basis für eine umfassende, geordnete und standardisierte Datenwelt bilden kann.
Reinhold Stahl, Patricia Staab
2. Wie sieht die Realität aus?
Zusammenfassung
Daten werden in wildem Eifer gesammelt, jedoch oft nicht mit Blick auf den Bedarf, sondern dort wo sie anfallen. Deshalb werden trotz der Datenflut immer noch schmerzhafte Datenlücken beklagt.
Und wenn Daten nicht zusammenpassen, lässt sich das in ihnen liegende Potenzial nicht ausschöpfen. Dennoch besitzt die Informationsindustrie weder ein Ordnungssystem für Daten noch eine umfassende Standardisierung. Dieser Mangel begründet die zahllosen Data Warehousing-, BI- oder Big-Data-Projekte der Unternehmen sowie die vielfache Ernennung von Chief Data Officers, deren Hauptaufgabe in der Regel darin besteht, eine Gesamtordnung in die Datenwelt eines Unternehmens zu bringen.
Diese Lücke lässt sich durch massiven IT-Einsatz nicht komplett schließen, denn eine Datenanalyseon demand auf Datensammlungen mit Dutzenden, ja Hunderten von Dimensionen ist nicht ohne fachliche Expertise möglich.
Reinhold Stahl, Patricia Staab
3. Was können wir von Big Data erwarten?
Zusammenfassung
Die IT-Branche reagiert auf die Anforderung der Datenintegration mit technologischen Innovationen, ein aktuelles Beispiel hierfür ist Big Data. Dank einer immens größeren Leistung durch Parallelisierung und Networking entsteht die Vision, einfach alle Daten in einen Data Lake zu werfen und daraus vollautomatisch neue Erkenntnisse zu bergen.
Jedoch stößt diese brachiale Vorgehensweise an Grenzen – nicht nur der Ethik sondern auch der Machbarkeit. Denn bei aller Rechenpower kann Technik allein nicht die fachlichen Fragen der Datenaufbereitung und -auswertung lösen, mitunter verleitet sie sogar zu gefährlichen Fehlschlüssen. Big Data kann daher nur eine Ergänzung zu einem wissenschaftlichen Vorgehen sein.
Selbst ein Big-Data-System benötigt Struktur, sowohl auf der Eingangs- als auch auf der Ergebnisseite. Hier kann die Ordnung der Daten durch deren Modellierung mit Hilfe eines Standards wie SDMX die unbändige Kraft einer Big-Data-Technologie zielgerichtet einsetzbar machen.
Reinhold Stahl, Patricia Staab
4. Warum ist Datenintegration so schwierig?
Zusammenfassung
Datenintegration ist ein mehrstufiger Prozess, an dessen Anfang die logische Zentralisierung der Daten in einem gemeinsamen System steht. Anschließend braucht es ein gemeinsames Ordnungssystem, eine einheitliche Datenmodellierungsmethode, um die Behandlung der Daten automatisieren zu können. Ein gemeinsames Verständnis erreicht man aber erst mit einer semantischen Angleichung.
All dies ermöglicht dann das Verknüpfen und anschließende Aufbereiten von verschiedenen Datenquellen. Dafür unabdingbar ist die oben beschriebene mehrstufige Standardisierung, der leider viele Hindernisse im Wege stehen. Mal ist es die IT-Technik, mal sind es die dem Silo-Denken zu sehr verhafteten Protagonisten. Mal ist es die Sorge um den Datenschutz, mal der fehlende Anreiz aufgrund scheinbar mangelnder Gewinnperspektiven. Im Ergebnis waren bisherige informationstechnische Standards für Daten entweder branchenspezifische Silo-Lösungen oder beschränkten sich auf ein formales Rahmenwerk.
Reinhold Stahl, Patricia Staab
5. Grundsätzliche Einschätzung der Standardisierung
Zusammenfassung
Standards kommen oft nicht gelegen: Sie ersetzen bereits existierende proprietäre Lösungen und verursachen einen Migrationsaufwand. Sie zeigen ihre Schlagkraft erst, nachdem diese Anfangsinvestitionen geleistet worden sind. Oft sind sie dabei nicht einmal die individuell „beste Lösung“. Aber die Stärke eines Standards resultiert nicht aus seiner Genialität, sondern aus der Tatsache, dass er von allen aufgegriffen wird. Hat sich ein Standard einmal etabliert oder wurde er sogar von offiziellen Stellen beschlossen, so ist er fast nicht mehr aufzuhalten. Er schafft verbindliche Schnittstellen und befördert dezentrales Arbeiten. In diesem Sinne ermöglichen weitreichende Daten- und Prozessstandards den Ausbau völlig neuer Ansätze, wie aktuell der Blockchain-Technologie. Unserer Ansicht nach liegt in der Standardisierung das Potenzial für die übergreifende, zielgerichtete Datennutzung sowohl innerhalb von Unternehmen als auch darüber hinaus.
Reinhold Stahl, Patricia Staab
6. Forschung und Standardisierung
Zusammenfassung
Auch bei der Forschung in diversen Wissenschaftsdisziplinen ist verstärkt eine Datenorientierung zu beobachten. Aber Forscher sind in der Regel nicht an übergreifender Standardisierung, sondern an einem enger geschnittenen Themenbereich interessiert, für den sie sich gut vorpräparierte Datensätze wünschen.
Technische Hilfsmittel können einen hohen Automatisierungsgrad sowohl für die Datenintegration als auch für das Reporting ermöglichen. Jedoch existiert eine Lücke zwischen dem, was sich Forscher von einem Datensatz wünschen, und dem, was selbst wohlgeordnete Datenstrukturen bieten. Diese Lücke schließen Forschungsdatenzentren, durch geeignete Verknüpfung von Daten aus unterschiedlichen Quellen, durch technische Aufbereitung und durch eine gute Dokumentation der Dateninhalte, oft auch durch die Sicherstellung der Vertraulichkeit.
Die sprudelnden Datenquellen und die gute Aufbereitung und Zugänglichkeit der Daten beeinflussen evtl. die Richtung der Forschungstätigkeit: Nämlich dorthin, wo potenzialstarke Datensätze verfügbar sind.
Reinhold Stahl, Patricia Staab
7. Standards erfolgreich einführen
Zusammenfassung
Für eine erfolgreiche Datenstandardisierung und -integration ist die richtige Vorgehensweise entscheidend. Jede Beschäftigung mit einem Datenbestand sollte dessen intellektuelle Erschließung zum Anfang haben. Hier ist eine Ordnung zu schaffen durch ein Data Dictionary und eine darauf aufbauende Datenstruktur.
Der Einsatz moderner IT ist kein Ersatz für ein durchdachtes, alltagsstabiles Daten- und Prozessmodell. Zuerst muss es ein intelligentes Konzept geben, danach die Umsetzung auf einer IT-Plattform. Datenintegration braucht eine gewisse Zeit, daher sollte es eine auf kontinuierliche Entwicklung setzende strategische Richtungsentscheidung sein.
Der Aufbau übergreifender Datenwelten mutet oft den „Datengebern“ den größten Aufwand zu, ohne dass diesem ein direkter Nutzen für sie gegenüber steht. Hier hilft eine ehrliche Analyse, wo die Einstellung einer Information in ein zentrales Datenhaus einen Mehrwert bietet, sowie ein klares Rollenkonzept unter Einbeziehung aller Stakeholder.
Reinhold Stahl, Patricia Staab
8. Statistik als Treiber erfolgreicher Datenintegration
Zusammenfassung
Statistik ist eine allgemeine Disziplin zum „Aufbau von Wissen durch intelligente Auswertung von Erfahrungen“ und dient in vielen naturwissenschaftlichen Bereichen als Hilfswissenschaft. Daher gehört es zum Tagesgeschäft, unterschiedlichste Informationsquellen zu integrieren. Die internationale Statistik-Gemeinde kann auf eine lange Tradition des Datenaustauschs zurückblicken.
Dabei hat die Statistik schon sehr früh begonnen, für diese Aufgabe allgemeine Begriffe und Konzepte zu entwickeln. Diese Konzepte für Messgrößen, Meta- und Registerdaten lassen sich ohne weiteres für Datenbestände verschiedenster Herkunft anwenden. Sie finden ihre Realisierung in dem Statistikstandard SDMX, der seit dem Jahr 2005 ganz entscheidend zum Aufbau länderübergreifend harmonisierter Wirtschaftsstatistiken sowie dem internationalen Datenaustausch und Data Sharing beigetragen hat.
Reinhold Stahl, Patricia Staab
9. Beitrag des Statistikstandards SDMX
Zusammenfassung
SDMX ist ein von der Statistik-Community erfolgreich eingesetzter internationaler Standard. Im Datenaustausch löste SDMX zahlreiche Einzelvereinbarungen ab und ermöglichte den Aufbau sogenannter Data Driven Systems.
Sein eigentliches Potenzial hat SDMX aber als Klassifikationssystem für beliebige (nicht nur) Finanz- und Wirtschaftsdaten. Viele Institutionen nutzen SDMX für interne Datensammlungen, die Datenbereitstellung und Internetpublikation. Eine ausgereifte SDMX-Lösung aus der Praxis ist die „Special Data Dissemination Standard Plus“ Initiative des IWF.
Im Kern ist SDMX verblüffend einfach: Ein Datenbestand wird modelliert, indem man seine bestimmenden Dimensionen – die Achsen seines Koordinatensystems – ermittelt und kodiert. Jeder einzelne Datenpunkt aus diesem Datensatz ist dann eindeutig durch seine Koordinaten, den SDMX-Schlüssel, festgelegt. Indem verschiedene Themenbereiche gemeinsame Dimensionen nutzen, entsteht eine verknüpfbare SDMX-Landschaft.
Reinhold Stahl, Patricia Staab
10. Fazit und Ausblick
Zusammenfassung
Die Datenwelten nehmen in ihrem Volumen, ihrer Komplexität und ihrer Bedeutung explosionsartig zu. Für ihre gewinnbringende Nutzung ist es von entscheidender Bedeutung, das rasante Wachstum zu beherrschen, die Daten zu verstehen und sie zu neuen Informationsgebilden zusammenzufügen. Die Informationsbranche hat jedoch bisher noch wenig auf die Entwicklung von Datenstandards gesetzt.
Statistik als themenübergreifend eingesetzte Disziplin verfügt über Standards für Datenhaltung, Dokumentation, Informationszugang, Datenschutz und Daten. Diese sind verfügbar, weltweit verbreitet und sie funktionieren.
Die aktuell vorhandene Datenorientierung und die rasant wachsenden Datenmengen bescheren der Statistik die große Chance, sich als zentraler Information-Provider und als generische Disziplin zum „Aufbau von Wissen durch intelligente Auswertung von den in Daten manifestierten Erfahrungen“ zu profilieren. Die Nutzung dieser Chancen wird mit Standardisierung und SDMX besser gelingen.
Reinhold Stahl, Patricia Staab

Der Statistikstandard SDMX

Frontmatter
11. Entstehung und Entwicklung von SDMX
Zusammenfassung
Das der SDMX-Vision zugrundeliegende Gedankengut stammt aus den Neunzigern und bekam seinen eigentlichen Schub in den Vorbereitungsarbeiten für die Europäische Währungsunion. Der im Jahr 2001 gegründeten SDMX-Initiative gelang es, den Standard im internationalen statistischen Datenaustausch zu etablieren, aber auch inhaltlich deutlich auszubauen. Die Sponsor-Organisationen arbeiten kontinuierlich daran, den Standard an sich weiterzuentwickeln, seine Nutzung zu fördern und seine Bekanntheit zu stärken.
Für die amtliche Statistik ergeben sich aus einer fortschreitenden SDMX-Durchdringung große Vorteile, nicht nur für die Ersteller einer Statistik, sondern auch für die Datenbereitstellenden. SDMX könnte als Universal-Einreichungsformat die Ära beenden, in der jede neue Statistik-Anforderung auch ihre eigenen Erhebungsformate definierte. Mit der daraus folgenden stärkeren „Industrialisierung“ von SDMX wiederum wären weitere Nutzungsmöglichkeiten auch außerhalb der Statistik verbunden.
Reinhold Stahl, Patricia Staab
12. Die wesentlichen Elemente von SDMX
Zusammenfassung
Zur Erläuterung des SDMX unterliegenden Information Model werden zunächst seine Bausteine, die SDMX-Artefakte, vorgestellt. Wir starten bei den Grundelementen, die für den Entwurf einer Datenstruktur notwendig sind, und nehmen dann nach und nach die umliegenden Elemente hinzu, etwa solche zur Beschreibung eines Datensatzes, zum Aufbau eines Datenaustausch-Prozesses oder zur Verwaltung von Themenbereichen, Akteuren und Prozessen.
Die Konzepte von SDMX sind inzwischen ganzheitlich genug, um ein SDMX-basiertes Data Warehouse zu betreiben. Zwei aktuelle Ausprägungen finden sich in der EZB und der Deutschen Bundesbank. Auch für Mikrodaten ist SDMX natürlich geeignet, hier liefert es gerade mit seiner Multidimensionalität und seinen codierten Dimensionen die ideale Startbasis für Datenanalysesoftware.
Auch in der Statistik haben sich neben SDMX verschiedene Konzepte und Modelle mehr oder weniger stark verbreitet. Auf einige davon gehen wir kurz ein: GSBPM, GSIM, DDI und XBRL.
Reinhold Stahl, Patricia Staab
13. Arbeiten mit SDMX
Zusammenfassung
SDMX hat zwar in der Statistik-Welt eine respektable Verbreitung gefunden, jedoch sind die Produkte überwiegend in Statistik-Entitäten in Eigenentwicklung erstellt worden, sie sind von daher proprietär. Gerade für die Annäherung an die Thematik sind Open-Source-Komponenten hilfreich, welche die SDMX-Community kostenfrei zur Verfügung stellt.
Diese Tools besitzen einen stark unterschiedlichen Reifegrad und bieten häufig ein überschneidendes Angebot an Funktionalitäten. Aber mit Hilfe dieser Werkzeugsammlung lassen sich folgende Anforderungen abdecken: Neue Datenstrukturen erstellen und bestehende Datenstrukturen verwalten; SDMX-Datenbestände ablegen und verwalten; SDMX-Dateien bearbeiten; Arbeiten mit den Daten in SDMX-Datensätzen; Informationen über SDMX-Datenbestände zentral ablegen. Zusätzlich findet man auch Programmierbibliotheken zur Nutzung für die Eigenentwicklung.
Reinhold Stahl, Patricia Staab
14. SDMX als Erfolgsfaktor für eine gelungene Datenintegration
Zusammenfassung
Datenintegration war bereits in den 90er Jahren des letzten Jahrhunderts eine große Herausforderung für die amtliche Statistik. Dort galt es, die unterschiedlichen nationalen Gegebenheiten in ein einheitliches, Datei-basiertes Datenübertragungsverfahren zu überführen. Dies gelang mit SDMX, SDMX ist aber viel mehr. Es ist ein nicht-technisches Modell, um die Datenwelt zu klassifizieren und damit zu einer einheitlichen Betrachtungsweise und Umgangsform mit Daten zu kommen. Auf diese Weise gelang es, sehr umfangreiche Datensammlungen zu vielfältigen Themen aufzubauen.
Es lohnt sich daher nicht, auf einen besseren Standard zu warten. Da Standards ihre Stärke aus ihrer Verbreitung und weniger aus ihrer Genialität ziehen, wäre das unerheblich. Wichtig ist, das Potenzial in einem Kandidaten zu erkennen, ihn daraufhin auszubauen und vor allem anderen seine Verbreitung zu befördern.
Reinhold Stahl, Patricia Staab
Backmatter
Metadaten
Titel
Die Vermessung des Datenuniversums
verfasst von
Reinhold Stahl
Dr. Patricia Staab
Copyright-Jahr
2017
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-54738-0
Print ISBN
978-3-662-54737-3
DOI
https://doi.org/10.1007/978-3-662-54738-0

Premium Partner