Big Data bringt neue Herausforderungen für das Data Warehouse

Die steigenden Datenmengen in Verbindung mit Big Data erfordern leistungsfähige Data-Warehouse-Lösungen für optimale Business-Intelligence-Auswertungen.

Die ewige Debatte über die Frage „Kaufen oder Selbermachen“ von Data-Warehouse-Anwendungen hat eine etwas gehässige Wendung genommen: Heute wird sie gern zu „Kaufen oder Leiden“ umdefiniert. Gemeint ist damit: Entweder man kauft ein fertiges Systempaket, auch wenn es einen gewissen Integrationsaufwand erfordert. Oder Sie begeben sich auf den schmerzvollen Weg, das Rad neu zu erfinden.

Allerdings gilt das nicht überall: Im Fall anspruchsvoller Highend-Anwendungen zur Integration von Business Intelligence (BI)-Daten mit anderen Informationen – wie beispielsweise Internet-Klickpfaden und Daten aus sozialen Netzwerken – schlägt das Pendel doch wieder in Richtung Selbstbau aus. Die Treiber dafür sind die üblichen Verdächtigen: Wachsende Datenvolumina (begleitet von einer großen Zahl gleichzeitiger Benutzer-Zugriffe und schnellen Aktualisierungen, technologische Innovationen und geschäftliche Möglichkeiten. Diese Variablen stellen traditionelle Data Warehouses auf die Probe. Sie müssen sich in neue Umgebungen einfügen und neue Taktiken, Techniken und Tricks hinzulernen.

Lassen Sie uns einige Zahlen betrachten. Das Datenwachstum ist atemberaubend, weil exponentiell. Schätzungen des McKinsey Global Institute geben einen Eindruck von dieser „lang anhaltenden Explosion“: Nach einer Studie von Mai 2011 werden jedes Jahr 800 Exabyte an Daten generiert. Das entspricht einer Strecke übereinander gestapelter DVDs, die bis zum Mond und wieder zurück reicht. Und wenn die 900 Millionen aktiven Benutzer von Facebook auf die Idee kämen, ein eigenes Land zu gründen, dann hätte dieses die drittgrößte Population auf unserem Planeten.

Die grundsätzlichen Fragen zu BI und Data Warehousing bleiben jedoch auch weiterhin dieselben: Wer kauft unser Produkt bzw. nimmt unsere Dienstleistung in Anspruch? Und wann und wo geschieht dies? Diese Fragen lassen sich über eine Vielzahl möglicher Dimensionen hinweg stellen: Geographische Lage, Vertriebskanäle, Werbeaktionen und die Art der Kontaktaufnahme. Paradoxerweise gilt: Wenn alles so bleibt, wie es ist, dann muss sich etwas ändern.

Mit fortschreitender Entwicklung besteht die Herausforderung zunehmend darin, Brücken zu bauen und neue Datentypen zu nutzten – beispielsweise XML, Daten zu Klickpfaden, unstrukturierte und semi-strukturierte Datenquellen wie die Seiten sozialer Netzwerke und andere Ausprägungen von „Big Data“. Als Nächstes müssen Organisationen die Funktionalität eines traditionellen Data Warehouse hinter ein übersichtliches, einfach bedienbares Interface bringen, das diese neuen Datentypen unterstützt.

Ein neuer Trick besteht beispielsweise darin, dass die klassische Kundendimension sich zu einem Subset eines Community-Raumes wandelt. Die Community-Dimension entfacht Konversationen über Produkte und Dienstleistungen, kommerziellen Tratsch, wirtschaftlichen Austausch und Umsätze. „Virales Marketing“ ist nicht mehr die seltene Ausnahme, sondern Teil der Lebensführung von virtuellen Konsumenten und Kunden-Avataren.

Technologische Innovationen mit Einfluss auf Data Warehousing sind unter anderem  Virtualisierung und Cloud Computing. Ebenfalls dazu gehören das Open-Source-Dateisystem und Programmier-Framework Hadoop und die NoSQL Datenbanktechnologie, die allesamt miteinander zusammenhängen.

Die funktionale Programmierung lebt in Hadoop und den – von unterschiedlichen IT-Anbietern entwickelten – Distributionen der Open-Source-Plattform weiter. Kurz erklärt: Hadoop ist eine verteilte Umgebung, die zur Verbesserung der Systemstabilität entwickelt wurde. Dies wird erreicht, indem Daten über Cluster von Standard-Systemen hinweg gespeichert werden und die Funktion zur Parallel-Bearbeitung mit der Bezeichnung MapReduce genutzt wird.

Hadoop bietet spezielle Vorteile bei einer Verarbeitung mit Schwerpunkt auf Extraktion, Transformation und Laden (ETL) und bläst so frischen Wind in die Segel der NoSQL-Datenbanken. Die NoSQL-Technologie macht aus der Not eine Tugend: Sie sucht eine Alternative zum relationalen Modell, insbesondere für den Umgang mit schier gigantischen Datenvolumina. Trotzdem ist Vorsicht geboten: Hadoop weist gegenwärtig Einschränkungen in Bezug auf gleichzeitige Zugriffe auf. Nichtsdestotrotz war die NoSQL-Bewegung so erfolgreich, sodass es notwendig wurde, ein SQL-Frontend für Hadoop, genannt Hive, zu bauen.

Web-Unternehmen treiben Innovationen voran

Viele dieser Innovationen wurden von führenden Unternehmen im Bereich neuer Technologien wie Amazon, Google oder Yahoo ins Leben gerufen. Der „Terabyte-Club“ kam einst nur auf rund einhundert Mitglieder mit Data Warehouses dieser Größe, inzwischen sind es so viele, dass sie sich nicht mehr zählen lassen. Petabyte ist das neue Terabyte. Hinzu kommt die Notwendigkeit, aus der Explosion bei sozialen Medien wie Facebook, Einnahmen zu generieren. Dies gilt auch für das Page-Referral-Paradigma von Google und das Aufeinandertreffen möglicher Kunden und web-basierter Produkte bzw. Dienstleistungen im Rahmen von Events. Der Pfad der Umsatzgenerierung verläuft über die Aggregation von Daten in aussagekräftige Kategorien. Letztere beschreiben das Verhalten von Menschen, wenn sie auf Produkte und Dienstleistungen treffen und mit diesen interagieren. Aber Moment mal: Das ist doch exakt das, was Data Warehouses und BI-Systeme tun.

Ein weiterer Trick stammt – wieder einmal – von Facebook. Dort hat man ein komplexes eigenes Maß des Benutzer-Interesses entwickelt, basierend auf gezählten Seitenaufrufen und Klicks, das dann zum Gegenstand von Data Mining und Analysen wird. Die Technologie zur Unterstützung dieser Bemühungen enthält Hadoop, MapReduce und Hive. Die Aggregationen der Seitenaufrufe und Klicks belaufen sich auf ein Gesamt-Datenvolumen von 1,7 Petabyte.

Zum gegenwärtigen Zeitpunkt erzielt Facebook Umsätze vorwiegend als Werbeplattform. Geplant ist aber auch, Marketing- und Werbetreibenden gegen Gebühr Zugriff auf seinen „Social Graph“, also die Profil-Datenbank, zu ermöglichen, damit sie Anzeigen verfeinern und individuelle Inhalte für potenzielle Kunden anbieten können. In der Tat ist die Profil-Datenbank ein Data Warehouse der x-ten Generation. Sie wird niemals nur ein einfacher Datenspeicher sein – viel eher ist sie ein „Datensturm“: ein virtuelles, verteiltes, sich dynamisch änderndes Bild aus Variablen, Attributen, Aggregationen und Hypothesen für fortwährendes Analysieren, Mining und Abfragen.

Alte und neue Data Warehouses befinden sich gleichermaßen in einem Wettrennen zwischen der Unterstützung geschäftlicher Benutzer und deren Einnebeln in einer undurchdringlichen Datenwolke. Kundendimensionen verwandeln sich in Communities und umgekehrt. Transaktionen lösen sich in Vorgänge auf. Und der Pfad durch ein Netzwerk mit Page-Ranking ist eine nahezu unfassbare Dimension, die zur nächsten großen Herausforderung für Rechenleistung werden könnte

Data Warehousing und BI werden auch weiterhin ihren Beitrag dazu leisten, Bedeutungen zu erfassen und neue geschäftliche Möglichkeiten zu eröffnen. Aber sie selbst werden nie mehr dasselbe sein wie früher.

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Data Warehouse

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close