Hadoop-Cluster bieten Spreadmarts und Analytics eines neues Zuhause

Hadoop bietet die Möglichkeit, die Masse an Spreadmarts in Firmen zu konsolidieren. Business-Anwender erlaubt es außerdem Self-Service-Analytics.

Schon seit Jahrzehnten greifen Datenanalysten auf Self-Service-Analyse-Tools zurück, um Daten abzurufen oder zu...

ändern, Trends und Ausreißer zu ermitteln und Business-Intelligence-Erkenntnisse zu präsentieren. Zwar haben sich diese Tools über die Jahre verändert, das Ergebnis ist aber fast immer das gleiche: ein Spreadmart, eine Excel-Tabelle oder ein IT-Schattensystem, das auf Grundlage eigener Regeln, Kennzahlen und Definitionen erstellt wurde.

In den meisten Großunternehmen existieren Zehntausende von Spreadmarts, die alle zur Beantwortung einer spezifischen Frage angelegt wurden, aber jeweils nur lokal von Belang ist. Für die jeweilige Geschäftseinheit sind diese Spreadmarts eventuell von unschätzbarem Wert, für CEOs und CFOs sind sie jedoch ein Grund zum Kopfschütteln.

Denn wenn sie lediglich eine einfache Frage stellen, wie zum Beispiel „Wie viele Kunden haben wir?“, bekommen sie von Datenanalysten und Abteilungsleitern mit einer Vorliebe für Spreadmarts widersprüchliche Antworten mit abweichenden Daten. Aufgrund dieses Spreadmart-Phänomens allein leiten Tausende von IT-Managern und Führungskräften Data-Warehousing-Initiativen ein, um die Datenkonsistenz und Ordnung im Unternehmen wiederherzustellen.

Das hält aber niemanden davon ab, Daten in einer Vielzahl verschiedener Spreadmart-Tools weiterzuverbreiten – von Microsoft Excel und Access bis hin zu Self-Service-BI-Software und, auf höherem Niveau, SAS und SPSS für statistische Analysen und Data Mining.

Inzwischen gibt es jedoch eine neue Technologie, mit der Unternehmen, die mit Big-Data-Analytics-Anwendungen arbeiten, die negativen Nebenwirkungen von Spreadmarts lindern können: Hadoop.

Das Open-Source-Framework ist gratis – auch die erforderliche Hardware kostet nicht viel –, und Analysten müssen sich weder mit SQL noch mit Datenmodellierungstechniken auskennen, um sie verwenden zu können. Sie müssen Hadoop lediglich mit den zu untersuchenden Daten füttern und können diese dann mit einer hoch entwickelten Sprache wie Hive, Pig oder einem Hadoop-konformen BI- oder Datenintegrations-Tool abrufen, verändern und analysieren.

Unter den vielen Gründen, Hadoop einzuführen, ist Self-Service-Datenanalyse ohne IT-Beteiligung nicht der schlechteste. Kein Wunder also, dass sich Hadoop bei Unternehmen langsam zur Spreadmart-Plattform der Wahl entwickelt.

Governance-freie Zone

Darüber, wie man in Hadoop-Umgebungen für Data Governance sorgen kann, wurde bisher nicht viel geschrieben. Die Begriffe Datenqualität, Datenkonsistenz, Conformed Dimensions und Metadaten-Management sind bei Hadoop noch nicht angekommen. Teilweise liegt das daran, dass Hadoop eine verhältnismäßig junge Technologie ist und viele Unternehmen noch dabei sind, auszuwerten, ob sie ihre Produktivanwendungen unterstützen kann.

Außerdem haben sich die Hauptanwender – Business Analysten – bekanntlich noch nie stark um Data Governance und Konsistenz im Unternehmen gekümmert und sind selbst nicht auf ein hohes Maß an Datenqualität angewiesen, um ihre Prognosen erstellen und Trends untersuchen zu können.

Wenn es sich bei Hadoop also um ein allen zugängliches Selbstbedienungssystem handelt, bei dem Analysten ohne jede Governance Daten eingeben und abrufen, ist es nicht nur eine Frage der Zeit, bis aus dem hochgelobten Hadoop-Data-Lake viele kleine Datenpfützen werden. Oder anders gefragt: Wird Hadoop die Ausbreitung von Spreadmarts weiter fördern oder eher zu ihrer Konsolidierung beitragen? Die Antwort lautet: sowohl als auch.

In der Tat können Unternehmen Hadoop als kostengünstiges Repository für ihre gesamten Daten – also als Data Lake – einsetzen. In dieser Hinsicht finden die Analysten und Geschäftseinheiten einer Organisation in einem Hadoop-System alles, was sie brauchen. Statt in verschiedenen Anwendungen und Systemen nach ihren Daten suchen zu müssen, brauchen sie einfach nur diese Datenquelle anzuzapfen. Das macht es natürlich leichter, Spreadmarts zu erstellen.

Doch statt sehr viele ungeregelte Spreadmarts auf unterschiedlichen PCs und Dateiservern heranzuziehen, bietet Hadoop die Chance, Datenanalysearbeiten an einem gemeinsamen Ort zu konsolidieren: in einer Art gigantischen Analyse-Sandbox. Dabei können IT-Leiter und Geschäftsführer sogar überblicken, was die Analysten machen.

Spreadmarts lassen sich unter anderem als Umschreibungen geschäftlicher Anforderungen betrachten. Sind die Spreadmarts versteckt, können IT-Manager nur schwer herausfinden, was für das Geschäft gerade zählt, um diese Anforderungen dann in Data Warehouses und Unternehmensberichten zu unterstützen. Indem Hadoop die Analyseaktivitäten zentralisiert, hilft es den IT-Abteilungen und Geschäftsanwendern, zusammenzuarbeiten und Anforderungen proaktiv zu erfüllen.

Hadoop vereint Datenquellen

Hadoop ist jedoch weit mehr als nur ein Sammelpunkt für Spreadmarts. Mit der skalierbaren, flexiblen Datenverarbeitungsplattform lassen sich fast alle Anforderungen an die Analyse von Unternehmensdaten erfüllen. Hadoop ist wie das Schweizer Taschenmesser der Datenverarbeitung: ein Universalwerkzeug, mit dem man beinahe alles machen kann.

Mehr zum Thema Hadoop:

Hadoop 2 bietet für Big-Data-Umgebungen eine bessere Analytics-Verarbeitung.

YARN bietet Hadoop-2-Anwendern neue Einsatzmöglichkeiten.

Wann Sie Hadoop einsetzen sollten – und wann nicht.

Hadoop zur Leistungssteigerung mit anderen Big-Data-Framworks mischen.

Hadoop-Integration von SAP: Diese Möglichkeiten bietet das Softwarehaus an.

Im Gegensatz zum Data Warehouse kann Hadoop alle Unternehmensdaten speichern, nicht nur einen Teil davon. Und mit der Integration des YARN ResourceManagers als Teil von Hadoop 2 unterstützt Hadoop eine große Auswahl verschiedener Big-Data-Verarbeitungs- und -Analyseanwendungen – von Echtzeit-SQL-Abfragesystemen bis hin zu Diagrammerstellung, In-Memory-Computing und Streaming-Analytics-Modulen.

Auch wenn es noch etwas dauern wird, bis Hadoop 2 vollkommen ausgereift ist, liegt die Zukunft auf der Hand: Unternehmen können ihre Daten in Hadoop-Clustern speichern und sie dort auch verarbeiten und analysieren.

Das ist revolutionär, und IT- und Data-Warehousing-Managern wird die Bedeutung schnell klar sein: Mit Hadoop 2 wird die künftige Analysearchitektur auf Hadoop basieren, nicht mehr auf relationalen Datenbanken. Die bestehenden Analysesysteme werden in der Folge zu Spezialdatenbanken, die irgendwann von der Bildfläche verschwinden werden, wenn Hadoop die von ihnen bereitgestellten Funktionen ebenfalls bietet.

So zumindest die Vision. Bevor jedoch die meisten Organisationen ihr derzeitiges Analyse-Ökosystem in einen von Hadoop gespeisten Data Lake verwandeln, muss noch viel entwickelt und experimentiert werden. Zudem haben die bestehenden Analysesysteme eine durchaus lange Lebensdauer. Selbst nach ihrer vollständigen Abschreibung wird es aufgrund ihres Funktionsumfangs und der Behäbigkeit von Konzernstrukturen schwer sein, sie auszusondern. Und vielleicht hält Hadoop ja auch gar nicht, was es verspricht, oder eine andere Technologie läuft Hadoop den Rang ab.

Aber die Hadoop-Welt dreht sich schnell. Heute ist Hadoop jedenfalls im Begriff, zum De-facto-Daten-Repository für Unternehmen und zur bevorzugten Spreadmart-Plattform zu werden. Schon bald könnte es bei der Entwicklung von Analyseanwendungen die vorherrschende Plattform und das Herzstück der meisten Analysearchitekturen sein.

Über den Autor:

Wayne Eckerson ist Gründer der Eckerson Group. Eckerson berät Unternehmen zu den Themen Business Intelligence, Analytics, Performance-Management, Data Governance, Data Warehousing und Big Data.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Juli 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close