Data Warehousing mit unstrukturierten Daten

Die ist der zweite Teil zum Thema Data Warehousing und wie Unternehmen die Masse an unstrukturierte Daten bändigen können.

Den ersten Teil 1 dieses Beitrags finden Sie hier.

Modellierung von unstrukturierten Daten

Unstrukturierte Daten sind mit einer gewissen Unsicherheit verbunden. Hier sind in den Dokumenten zu viele Informationen, die manchmal wieein Hintergrundgeräusch wahrzunehmen sind. Die Entdeckung wertvolle Informationen ist in diesem Fall aufwändiger.

Um einen Ansatz bei der Modellierung der unstrukturierten Daten vorzustellen, bilden wir folgendes Szenario: wir wollen alle Emails bearbeiten, die mögliche Aufträge beinhalten. Das heißt das Objekt Auftrag per Email befindet sich in sehr vielen Instanzen. Die Emails können unterschiedlich groß sein. Beim Eintreffen solcher Emails kann ihr Inhalt on the fly analysiert werden. Dafür kann man Text Mining und Strukturanalyse nutzen, um die Volumina solcher Daten zu bewältigen. Dadurch gewinnt man Metadaten (Informationen über Informationen), die in BIR abgespeichert werden. Somit benötigen wir keine klassischen „ETL-Prozesse“, um diese unstrukturierten Daten zu strukturieren und sie in DWH zu laden. Wir können später diese Metadaten nützen, um atomare oder abgeleitete Informationen mit den Metadaten aus den unstrukturierten Daten zu kombinieren.

Metadaten

In BI2 gewinnen Metadaten enorm an Bedeutung. Während in einer DWH-Lösung die Metadaten an bekannten Stellen zu finden sind, müssen sie im Bereich der unstrukturierten Daten durch Erzeugung von Indizes, Pointers, Beschreibungen und Annotationen ermittelt werden. Im folgenden Bild finden Sieeine vereinfachte Darstellung des BIR.

In der Architektur von BI2 sind die Metadaten als Teil der compound-Daten zu finden. Metadaten sind für alle Klassen von Daten auf der Achse Timeliness/Consistency relevant. Sie sind auch der Veränderung, Anreicherung unterstellt, vor allem durch postdiscovery / (a posteriori)-Aktivitäten. Metadaten für in-flight- und live-Daten sind wie die Daten selbst für kürze Zeit von Bedeutung, jedoch sehr wichtig, um agil mit diesen Daten umzugehen. Wiederum sind Metadaten für historische Daten fast unveränderbar und dadurch essenziell für die Datenqualität. Alle analytischen Aktivitäten bedienen sich der Metadaten. Traditionelle BI-Lösungen hatten keine gute Beziehung zu den Metadaten, denn sie wurden meistens nur dazu benutzt, um Tabellen- und Feldnamen zu identifizieren. Der Rest wurde ignoriert, sprich wertvolle Informationen wurden nicht berücksichtigt. Um Antwortzeiten der Abfragen zu verbessern hat man Indizes auf Tabellen definiert, die schlüsselbasiert sind. Sie sind entweder bei der Definition der Tabellen schon festgelegt, oder werden nachträglich,wenn die Datenmengen wachsen, definiert.

Die Metadaten aus dem unstrukturierten Bereich können mit Metadaten aus dem strukturierten Bereich kombiniert werden, um den Kennzahlen und Dimensionen aus dem DWH mehr Kontextinformationen zur Verfügung zu stellen.

Barry Devlin schlägt zusammenfassend folgende Vorgehensweise vor:

  • Vollständige Integration der Metadaten aus unstrukturierten und strukturierten Daten
  • Definition im Voraus von Modellen vor allem im Bereich der strukturierten Daten, um die Qualität und Integrität der Daten zu unterstützen
  • Definition von Modellen im Nachhinein (Post-defined models), z.B. bei der Integration von unstrukturierten Dokumenten, die Schlüsselkonzepte und Beziehungen abfangen können und die Erzeugung der Querverbindungen zu den Metadaten aus den strukturierten Daten gewährleisten
  • Entdeckung von Beziehungen a posteriori, auf Anfrage während der Definition einer Abfrage.

Semantisches Web zur Gewinnung von Metadaten aus unstrukturierten Daten

Um Metadaten aus Textdateien zu gewinnen gibt esverschiedene Verfahren, die im Artikel BI Kennzahlen benötigen einen Kontext, in Detail beschrieben sind. Es handelt sich um Textanalyse, Text-Mining, maschinelles Lernen, linguistische Verfahren. In diesem Teil wollen wir einen anderen Ansatz vorstellen, der für die unstrukturierten Daten relevant ist, und zwar für Daten, die im Web zu finden sind. Es handelt sich um semantisches Web.

Semantisches Web basiert auf Standards definiert von W3C. Sie beschreiben neue Methoden, Daten zu adressieren, zu kombinieren und gemeinsam zu nutzen, die in unterschiedlichen Datenquellen vorliegen und die unterschiedliche Strukturen vorweisen. Diese Standards definieren Ontologien,die die Beschreibung der Konzepte beinhalten, die in den Dokumenten zu suchen sind. Sie basieren auf Eigenschaften von Daten. Dadurch steht eine erste Wissensbasis zur weiteren Erschließung von unstrukturierten Informationenbereit. Semantische und linguistische Verfahren nutzen dieses Wissen, um im Unternehmen verfügbare Repositories von Dokumenten zu parsen und deren Inhalte zu annotieren. 

Weiterhin benötigt semantisches Web so genannten RDF-Dateien (Resource Description Framework). Darin sind formale Beschreibungen von Informationen über Objekte, sogenannte Ressourcen, die als Quellen für Ontologien fungieren. Durch die formale Repräsentation in RDF sind Informationen aus den Ressourcen von Programmen auswertbar. Das kann z.B. mithilfe der Abfragesprache SPARQL stattfinden. Implizit vorhandene Informationen können durch den Einsatz von genaueren Spezifikationen des modellierten Bereichs, z.B. mithilfe von RDF-Schema (RDFS) oder der Web Ontology Language(OWL), maschinell erschlossen werden, obwohl die Information nicht explizit vorliegt. 

Die semantische Beschreibung der DWH-Metadaten mittels RDFS stellt zu diesem Zweck ein Domänen-neutrales Regelsystem bereit. Spezielle RDF-Sprachkonstrukte gewährleisten in diesem Zusammenhang die semantische Beschreibung von Elementen. RDF-Dokumente können gegen in RDFS auf Validität geprüft werden.“ Der RDF-Ansatz kann auch bei der Beschreibung der Metadaten in einer DWH-Umgebung benutzt werden,wie in beschrieben wurde. Das heiß RDF kann nicht nur im Web eingesetzt werden,sondern kann allgemein zur Verknüpfung von Metadaten benutzt werden. Aus entstammt auch folgendes Diagramm. Es ist ein Beispiel eines RDF-Schemas in einer DWH-Umgebung.

Semantisches Web anhand des RDF-Ansatzes ist die Grundlage für eine semantische Suche, die qualitativ besser als die gewöhnliche Google/Yahoo/Bing-Suche ist. Die Vorteile der semantischen Suche sind im Detail im vorgestellt. Hier eine Zusammenfassung:

  • Zeitersparnis durch bessere Ergebnisanordnung
  • Zeitersparnis durch kleinere Ergebnismenge
  • Vollständigere Ergebnismenge
  • Verbesserte Ergebnisqualität
  • Gewichtung der Ergebnisse

Fazit

Woher kommt der große Unterschied zwischen strukturierten und unstrukturierten Daten? Aus der Intention bei der Entstehung der Daten. Während in einem DWH Datenmodelle, Datenflüsse und Auswertungsmöglichkeiten der Daten klar definiert werden, sind die unstrukturierten Daten zuerst für operative Zwecke gedacht. Emails, Spezifikationen, Blogs, Bilder, Audiodateien sind zuerst einmal ohne eine bestimmte Struktur kreiert. Später entdecken Mitarbeiter, da die DWH-Berichte doch nicht alles über Kennzahlen und Zusammenhänge sagen können, dass Kontextinformationen irgendwo anders zu finden sind. Business Integrated Insight ermöglicht eine Vereinigung von strukturierten und unstrukturierten Daten. Dafür werden die Metadaten primär benutzt. 

Anhand verschiedener Ansätze wie Textanalyse, Textmining kann man aus Textdateien, die nicht strukturiert sind, viele Metadaten gewinnen, die dann mit denen der strukturierten Daten kombiniert werden. Sollten die Textdateien im Web vorhanden sein, dann empfiehlt sich sie zu strukturieren anhand des semantischen Web. DWH kann mittlerweile durch viele Ansätze seinen Horizont erweitern, indem der Beziehungen über die Metadaten aufalle notwendigen Daten ermöglicht wird. Nicht zuletzt wird dadurch gewährleistet,dass die Grenzen zwischen operativen und dispositiven Systemen einerseits sowie DWH-Lösungen und anderen Informationen im Intranet und Internetdurchlässiger werden.

 Über den Autor:

Alexandru Draghici ist seit 1994 in den Bereichen OLAP, Data Warehouse und Business Intelligence tätig. Sein Schwerpunkt liegt im konzeptionellen Bereich sowie in der Architektur von DWH und BI-Lösungen. Er verfügt über ein umfangreiches Wissen und umfangreiche Erfahrungen im BI-Umfeld. Dies umfasst sowohl die SAP BI-Technologie als auch die non-SAP BI-Technologien: Oracle, Hyperion, Business Objects, SAS Institute. Kenntnisse und Erfahrungen im ETL Bereich vervollständigen sein Portfolio. Er ist seit Jahren ein aktiver TDWI-Mitglied (www.tdwi.eu).

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Dezember 2010 aktualisiert

Erfahren Sie mehr über Data Warehouse

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close