kentoh - Fotolia

Wie Apache Hadoop beim Big Data Management helfen kann

Viele Firmen evaluieren noch, wie sie von Hadoop profitieren. In diesem Beitrag werden Big-Data-Anwendungen vorgestellt, die Hadoop unterstützt.

Viele Unternehmen kämpfen derzeit mit dem Management der riesigen Datenmengen, die sie sammeln. Während in der Vergangenheit dafür in der Regel ein Data Warehouse verwendet wurde, greifen solch herkömmliche Architekturen heute aber meist zu kurz. Denn anders als früher stammen Daten inzwischen aus zahlreichen internen und externen Quellen und variieren zudem häufig in Struktur und Inhaltstyp.

Abhilfe versprechen neue Technologien – am deutlichsten gilt dies wohl für Apache Hadoop, ein Framework, das entwickelt wurde, um die Masse und Komplexität von großen Datenumgebungen und die Mischung aus strukturierten, unstrukturierten und semistrukturierten Daten in den Griff zu bekommen.

Ein Teil der starken Anziehungskraft von Hadoop liegt darin begründet, dass es aus von einer Vielzahl von Open-Source-Software-Komponenten besteht sowie damit verknüpften Tools für die Erfassung, Verarbeitung, Verwaltung und Analyse von Daten. Damit Benutzer von den Vorteilen des Frameworks profitieren, bieten viele Anbieter kommerzielle Hadoop-Distributionen mit verbesserter Leistung und Funktionalität gegenüber der grundlegenden Apache Open-Source-Technologie. Zudem bündeln sie die Software mit Wartung und Support-Dienstleistungen. Im Folgenden wird erläutert, wie Unternehmen von einer Hadoop-Distribution profitieren können.

Ein Fall für Hadoop

Hadoop läuft in Clustern auf preiswerten Standardservern und wird in der Regel für die Datenanalyse und weniger für die Online-Transaktionsverarbeitung verwendet. Mehrere inzwischen verbreitete Analytics-Anwendungsfälle profitieren von Hadoops verteilter Datenverarbeitung und dem parallelen Rechenmodell. Hier eine Liste dieser Anwendungsfälle:

  • Operational-Intelligence-Anwendungen für das Streaming von Daten aus Transaktionsverarbeitungssystemen sowie für das Erfassen von Unternehmenskapital, die Überwachung des Performance Levels und für Predictive Maintenance – also die vorausschauende Wartung und Überwachung von Maschinen und Anlagen.
  • Webanalyse, um Unternehmen dabei zu unterstützen, die Demographie und Online-Aktivitäten ihrer Website-Besucher zu verstehen, die Überprüfung von Webserver-Logs, um System-Performance-Probleme zu erkennen und zu identifizieren und die Möglichkeit, das digitale Marketing zu verbessern.
  • Sicherheits- und Risiko-Management, wie etwa analytische Modelle laufen zu lassen, die Transaktionsdaten mit einer Wissensbasis für betrügerische Aktivitätsmuster vergleichen sowie kontinuierliche Cyber-Security-Analyse zur Identifizierung neuer Muster von verdächtigem Verhalten.
  • Marketing-Optimierung, einschließlich Empfehlungsmaschinen, die riesige Mengen an Internet Clickstream-Daten und Online-Verkaufsdaten aufnehmen und diese Informationen Kundenprofilen beimischen, um auf diese Weise in Echtzeit Vorschläge für die Produktbündelung und das Upselling zu bekommen.
  • Anwendungen für das Internet der Dinge, um zum Beispiel die Daten der „Dinge“ zu analysieren, wie Fertigungseinrichtungen, Pipelines oder so genannte intelligente Gebäude. Dabei erzeugen und senden die Sensoren kontinuierlich Informationen über ihren Status und ihre Leistung.
  • Sentiment-Analyse und Markenschutz, wie etwa Social-Media-Daten zu erfassen und Text-Streams aus Social Media zu analysieren, um unzufriedene Kunden und deren Probleme zu identifizieren, und diese schnell zu beseitigen.
  • Massive Datenaufnahme für die Datensammlung, Verarbeitung und für Integrationsszenarien wie die Erfassung von Satellitenbildern und Geodaten.
  • Data Staging, bei dem Hadoop als erster „Landeplatz“ für Daten verwendet wird. Diese werden dann integriert, gereinigt und in besser strukturierte Formate transformiert, um sie für Analysezwecke in ein Data Warehouse oder in eine analytische Datenbank zu laden.

Funktionen, die die Anwendungsfälle unterstützen

Anwendungen, die diese Nutzungsszenarien unterstützen, können mit Hadoop als Basis gebaut werden. Dabei werden typischerweise folgende prototypische Implementierungsmethoden verwendet:

  • Data Lakes. Ein Vorteil von Hadoop: Es ermöglicht eine lineare Skalierbarkeit bei der Verarbeitung und Speicherung – während gleichzeitig neue Datenknoten in eine Cluster-Architektur eingebaut werden können. Deshalb ist Hadoop eine quasi natürliche Plattform für die Erfassung und das Management von großen Mengen an Rohdaten. Dies hat viele Benutzer dazu motiviert, Hadoop-Systeme als Catch-all-Plattform für ihre Daten zu implementieren und damit einen „konzeptionellen“ Data Lake zu schaffen. In Data Lakes werden Daten ohne Bearbeitung in ihrer Ursprungsform direkt gespeichert und sofort analysiert. Explorative Datenanalyse ist damit unmittelbar möglich. Data Lakes eignen sich auch gut für Hadoop, da man kein Datenschema festlegen muss und die Daten einfach geladen werden können.
  • Erweitertes Data Warehouse. Der verteilte Speicher von Hadoop kann auch dazu verwendet werden, die Daten, auf die in einer Data-Warehouse-Umgebung zugegriffen wird, für Analysezwecke zu erweitern. So kann beispielsweise zum Verteilen der Daten auf die verschiedenen Ebenen der Speicherhierarchie ein temperaturbasiertes Schema eingesetzt werden, das die Verwendungshäufigkeit der Daten anzeigt. Die Daten, auf die am häufigsten zugegriffen wird, werden als heiße Daten im Data Warehouse gehalten, während weniger häufig verwendete kalte Daten auf Storage mit höherer Latenz wie dem Hadoop Distributed File System (HDFS) gelegt werden. Dieser Ansatz setzt allerdings voraus, dass das Data Warehouse eng an Hadoop gekoppelt ist.
  • Skalierbare Batch Computing Engine. Wenn Daten- und Rechenknoten kombiniert werden, entsteht aus Hadoop eine massiv-parallele Verarbeitungsplattform. Diese ist für die Bearbeitung und Analyse von Daten bei Stapelverarbeitungs-Anwendungen bestens geeignet. Ein Beispiel sind die Datenstandardisierung sowie Transformations-Jobs, um Daten für die Analyse aufzubereiten. Von ausgefeilten Algorithmen angetriebene Analytics-Anwendungen wie Data Mining, maschinelles Lernen, Musteranalyse und prädiktive Modellierung sind ebenfalls gute Möglichkeiten, die Batch-Fähigkeiten von Hadoop einzusetzen. Der Grund ist, dass diese parallel über verteilte Dateien ausgeführt werden und gleichzeitig Teilergebnisse iteriert werden können, bis das Programm mit den abschließenden Ergebnissen fertig ist.
  • Ereignisgesteuerte Analyse-Processing-Engine. Eine Hadoop-Umgebung kann auch so konfiguriert werden, dass sie eingehende Datenströme in Echtzeit oder nahezu in Echzeit verarbeiten kann. Ein Beispiel: Eine Anwendung zur Sentimentanalyse kann mehrere Kommunikationsagenten auf einem Hadoop-Cluster parallel laufen lassen. Dabei kann jeder dieser Agenten mit einem Satz von Streaming-Regeln Daten von sozialen Netzwerken wie Twitter und Facebook analysieren.

Der Hadoop-Einsatz: Ist es das Richtige für Sie?

Ein preiswertes High-Performance-Computing-Framework wie Hadoop kann verschiedene IT- und Business-Bedürfnisse ansprechen, um in einer Organisation Rechenleistung aufzustocken oder Daten-Management-Funktionen zu erweitern. Im Folgenden stellen wir einige Anforderungen an Anwendungen vor, bei denen eine Hadoop-basierte Daten-Management-Plattform sinnvoll ist:

  • Speicherung und Verarbeitung von großen Datenmengen, massiven Datenmengen und Streaming-Daten. Ein Beispiel hierfür ist die Erfassung und Speicherung von Webserver-Logs, die Informationen über Milliarden von Online-Ereignissen enthalten. Ein anderes die Indizierung von Hunderten von Millionen an Dokumenten über verschiedene Datensätze hinweg. Ein drittes die kontinuierliche Verfolgung von Datenströmen, wie sie bei Social-Media-Kanälen, Börsendaten, Nachrichten-Feeds und Inhalten von Expertengemeinschaften auftreten.
  • Die Notwendigkeit, Performance-Engpässe zu beseitigen. Auf traditionellen Data-Warehouse-Systemen wird die Anwendungsleistung oft gedrosselt. Dies ist eine Folge des langsamen Datenzugriffs, der Latenz und Verfügbarkeit wie auch der eher spärlichen Bandbreiten, die durch die riesigen zu verarbeitenden Datenmengen entstehen.
  • Der Wunsch nach linearer Skalierbarkeit der Leistung. Da die Datenmengen und die Anzahl der Nutzer steigen, nimmt auch der Wunsch nach einer Umgebung zu, in der sich die Leistung linear skalieren lässt. Das problemlose Hinzufügen von Rechen- und Speicherressourcen kann heute geschäftskritisch sein, vor allem, wenn Anwendungen von Parallel-Computing profitieren können.
  • Eine Mischung aus strukturierten und unstrukturierten Daten. Anwendungen müssen heute Daten aus verschiedenen Quellen nutzen, die in ihrer Struktur variieren. Einige – oder viele davon – sind unstrukturiert oder semi-strukturiert, wie zum Beispiel Text oder Server-Log-Daten.
  • IT-Kosteneinsparungen. Anstatt Premium-Preise für High-End-Server oder spezielle Hardware-Appliances zu zahlen, sind viele Systemarchitekten überzeugt, dass eine akzeptable Leistung durch preiswerte Standard-Komponenten erreicht werden kann.

Mehr zum Thema Hadoop:

Neue Tools bieten einen besseren Einblick in das Management von Hadoop-Clustern.

Mit dem Hadoop Distributed File System (HDFS) Big Data bewältigen.

SQL-on-Hadoop bietet für Analytics zahlreiche neue Möglichkeiten.

Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.

Hadoop-Cluster bieten Spreadmarts und Analytics eines neues Zuhause.

Überlegungen zur Integration von Hadoop in ein Unternehmen

Einen unumschränkt positiven Wertbeitrag entfaltet Hadoop aber nur dann, wenn die Plattform in das Unternehmen integriert werden kann. Da viele Unternehmen erhebliche Investitionen in traditionelle Data-Warehouse-Plattformen gemacht haben, kann es gewisse Widerstände geben, eine neuere Technologie einzuführen. Bevor Sie einen Anbieter einer Hadoop-Distribution anheuern, sollten Sie deshalb zuerst mögliche Hindernisse, die der Einführung im Wege stehen, beseitigen und die Anforderungen für das Cluster-Sizing und die Konfiguration bewerten.

Legen Sie zum Beispiel fest, an welcher Stelle ein Hadoop-Cluster in die Data-Warehouse- und Analytics-Strategie passt – und ob Hadoop ein bestehendes Data Warehouse ergänzen oder ersetzen soll. Sie sollten auch Integrations- und Interoperabilitäts-Probleme, die gelöst werden müssen, identifizieren und Konfigurationsalternativen überprüfen. Unter anderem sollten Sie überlegen, ob es besser ist, das Hadoop-Ökosystem lokal im eigenen Rechenzentrum oder in einer Cloud-basierten oder gehosteten Umgebung zu implementieren.

Darüber hinaus sollten Sie sicherstellen, dass Sie entsprechendes Know-how im Haus haben oder zumindest das Budget, um Fachkräfte mit den richtigen Fähigkeiten zu mieten oder vorhandene Mitarbeiter weiterzubilden. Das ist unbedingt nötig, denn die Hadoop-Anwendungsentwicklung unterscheidet sich stark von herkömmlicher Datenbankentwicklung. Die Antworten auf solche Fragen werden Sie dabei unterstützen, die Machbarkeit einer Hadoop-Bereitstellung zu eruieren.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im August 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close