Der iterative Data-Profiling-Prozess in vier Schritten

Eine Data-Profiling-Analyse verläuft als iterativer Prozess und besteht aus vier Einzelschritten. In diesem Beitrag erörtert unser Experte die einzelnen Schritte.

Dieser Artikel behandelt

BI-Technologie

Eine Data-Profiling-Analyse verläuft als iterativer Prozess und besteht aus vier Einzelschritten:

  1. Daten integrieren,
  2. integrierte Daten analysieren,
  3. Ergebnisse darstellen und
  4. fachlich bewerten.

Schritt 1: Daten integrieren

Zuerst extrahiert das Projektteam die Daten aus den Quellsystemen für die Data-Profiling-Analyse. Wer diese Daten zunächst in einen eigenen Staging-Bereich für das Data Profiling kopiert, gewinnt mehrere Vorteile:

Erstens wird die zusätzliche Last auf den Quellsystemen vermieden. Typischerweise analysiert der Data-Profiling-Prozess große Datenbestände, deshalb ist der Bedarf an Rechnerressourcen hoch. Eine Entkopplung verhindert, dass die Quellsysteme unnötig stark belastet werden und sich somit die operativen/dispositiven Prozesse untragbar verlangsamen.

Zweitens wird so die Analyse von Änderungen in den Quellsystemen entkoppelt. Data Profiling ist ein iterativer Prozess, wobei die einzelnen Schritte unter Umständen lange dauern können. Während der Dauer dieses Prozesses ändern sich die Daten in den Quellsystemen ständig. Deshalb können die Wiederholungen nicht auf einem konstanten Datenbestand durchgeführt werden, was die Ergebnisse verfälscht. Nur wenn der Datenbestand während des gesamten Prozesses  im Staging-Bereich konstant bleibt, sind die Ergebnisse reproduzier- und verwertbar.

Drittens wird die Laufzeit des Data-Profiling-Prozesses kürzer. Für das Data Profiling werden Daten aus verschiedenen Systemen über technische, geografische und Systemgrenzen hinweg analysiert. Die Laufzeiten des Data-Profiling-Prozesses können sich bei einem direkten Zugriff stark erhöhen, insbesondere bei schmalbandigen Netzwerkverbindungen. Weiterer Nachteil: Bei auftretenden Verbindungsabbrüchen muss der gesamte Analyseschritt wiederholt werden.

Um bessere Ergebnisse zu erzielen, werden die Daten vor der Data-Profiling-Analyse noch weiter aufbereitet. Beispielsweise werden als Freitextfelder definierte Attribute mit zusammengesetztem Inhalt aufgespalten (Parsing): So trennt man Name = „Dr. Friedrich Müller" in Titel = „Dr.“, Vorname = „Friedrich“, Nachname = „Müller“. Außerdem entfernt man für die Analyse nicht benötigte Attribute und fügt Referenzdatenbestände (zum Beispiel für Adressdaten) hinzu. Besitzen die zu analysierenden Daten referenzielle Beziehungen zu anderen, nicht in die Analyse einbezogenen Daten, sollte man diese Beziehungen auflösen und die Schlüsselwerte durch die richtigen Werte ersetzen. Alternativ werden die verbundenen Daten auch zusätzlich mit in die Analyse einbezogen. Die so aufbereiteten Daten stellt man anschließend für die Analyse bereit.

Schritt 2: integrierte Daten analysieren

Sind die Daten bereitgestellt, werden sie mit Hilfe der verschiedenen Verfahren des Data Profiling analysiert. Obwohl dies weitestgehend automatisch mit Hilfe eines Werkzeugs passiert, muss der Data-Profiling-Analyst interagieren. So muss er die geeigneten Analyseverfahren auswählen und konfigurieren.

Wie der gesamte Prozess ist auch dieser Analyseschritt hochgradig iterativ. Der Analyst wählt ein geeignetes Verfahren, analysiert damit die Daten und begutachtet die Ergebnisse. Darin identifiziert er erste Auffälligkeiten und weitere Fragen, denen er dann nachgeht. Dazu wechselt er in der Regel mehrfach die Verfahren, bis sich am Schluss die Erkenntnisse verfestigt haben. Für diese Aufgabe ist detektivischer Spürsinn gefragt.

Schritt 3: Ergebnisse darstellen

Ergebnisse, offene Fragen und Vermutungen bereitet er in geeigneter Form auf und bespricht sie im Nachgang mit dem Business-Analysten. In der Praxis hat sich gezeigt, dass der Business-Analyst diese nur richtig und vollständig bewerten kann, wenn sie verständlich und nicht zu IT-lastig dargestellt sind. Meist fehlen dem Business-Analysten die notwendigen IT-Kenntnisse, um mit den Begriffen „Referenzielle Integrität“, „Eindeutigkeit“ etc. etwas anfangen zu können. Deshalb ist es erfolgversprechender, bei der Darstellung der Ergebnisse für den Fachexperten verständliche Begriffe zu verwenden.

Beispiel: Versuche, dem Business-Analysten zu erklären, dass „in der Tabelle BESTELLUNGEN 3,2 Prozent Waisen ohne Vater in der Tabelle KUNDEN existieren“, scheitern. Zielführender sind die Fragen: Warum sind 3,2 Prozent aller Bestellungen keinem Kunden zuzuordnen? Wohin sind diese Bestellungen geliefert worden und wer hat die Rechnung bekommen? Außerdem ist es hilfreich, die entsprechenden Datensätze dem meist überraschten Business-Analysten gleich mit zu präsentieren. Denn in vielen Fällen kann der Fachexperte erst anhand der zugehörigen Datensätze die mögliche Ursache identifizieren.

Wer die Reporting-Funktionalitäten des verwendeten Werkzeugs benutzt, kann den Aufwand für die aufbereitete Darstellung meist deutlich reduzieren. Viele Werkzeuge verfügen bereits heute über ein umfangreiches Berichtswesen, das zu den üblichen tabellarischen häufig auch grafische Darstellungen bietet. Außerdem ermöglichen sie den direkten Zugriff und die Darstellung der betroffenen Datensätze.

Schritt 4: Ergebnisse fachlich bewerten

Nachdem der Datenanalyst dem Business-Analysten die Ergebnisse verständlich präsentiert hat, führt dieser eine fachliche Bewertung durch. Diese geschieht in der Praxis in mehreren Workshops. Auch der Datenanalyst ist anwesend, um Rückfragen zu beantworten, Ergebnisse zu präzisieren und für eine Bewertung notwendige, zusätzliche Informationen zur Verfügung zu stellen. Die Bewertung ist und bleibt aber die originäre Aufgabe des Business-Analysten, schließlich ist hierfür ausgeprägtes Wissen über die Geschäftsprozesse und die Fachlichkeit nötig. Der Datenanalyst unterstützt lediglich, kann diese Aufgabe aber nicht selber übernehmen.

Beispiel: Der Datenanalyst hat in einer Data-Profiling-Analyse herausgefunden, dass für das Attribut KUNDENSTATUS 98,7 Prozent der Werte durch die Domänenwerte INTERESSENT oder KUNDE abgedeckt sind. Die restlichen 1,3 Prozent verteilen sich auf die Werte NULL, NOCH KEIN KUNDE bzw. EXKUNDE. Der Business-Analyst muss jetzt bewerten, ob die Domäne so fachlich richtig definiert ist. Außerdem klärt er, ob die diskreten Werte INTERESSENT und KUNDE tatsächlich die einzigen erlaubten Werte sind, wie die anderen vorhandenen Werte bei der Bereinigung und den nächsten Ladeläufen auf diese beiden zulässigen Werte abgebildet werden sollen und woher diese anderen Werte stammen. Außerdem muss er festlegen, ob das Attribut ein MUSS-Feld ist oder ob auch die gefundenen NULL-Werte zulässig sind. Dazu liefert der Datenanalyst ihm die Datensätze mit den anderen Werten, die nachfolgend analysiert und im Quellsystem überprüft werden.

Reichen dem Business-Analysten die vorhandenen Informationen nicht oder sind noch Fragen offen, wird der gesamte Prozess mit geänderten Daten und neuen Fragen wiederholt gestartet. Erst wenn alle Fragen geklärt sind, wird der Prozess beendet.

Über den Autor:

Detlef Apel ist Senior-Berater im Center of Competence Business Intelligence bei Capgemini. Sein Spezialgebiet ist das Informationsqualitätsmanagement in allen Facetten, in dem er seit vielen Jahren große Unternehmen verschiedener Branchen erfolgreich bei Konzeption, IT-Architektur, Optimierung, Realisierung und Einführung berät und unterstützt. Als Redner auf verschiedenen Konferenzen sowie als Autor diverser Fachartikel und des Fachbuchs „Datenqualität erfolgreich steuern – Praxislösungen für Business-Intelligence-Projekte“ stellt er sein Wissen und seine langjährigen Projekterfahrungen der DWH-/BI-Gemeinschaft zur Verfügung.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im April 2009 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über BI-Technologie

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close