Hadoop-Lösungen für Big Data mit Hive, Mahout, HBase und Cassandra

Apache Hadoop ist ein Framework für skalierbare, verteilt arbeitende Software. Nutzer sind unter anderem Amazon, eBay, Google und Microsoft.

Software-Entwickler, die Architekturen für Big-Data-Lösungen entwerfen, kennen mit Sicherheit eine interessante Technologie. Sie umfasst SQL-Datenbanken, NoSQL-Datenbanken, unstrukturierte Daten, Dokument-orientierte Datastores und höchst aufwendige Berechnungen für Business-Analytik. Richtig geraten: Die Rede ist von Hadoop. Zugleich ist das Framework ein gemeinsamer Nenner für Giganten wie Amazon, Yahoo, AOL, Netflix, eBay, Microsoft, Google, Twitter und Facebook. Auch IBM ist mit von der Partie und fördert Hadoop für Enterprise-Analytik. Das Open-Source-Produkt ist so allgegenwärtig, dass man kaum glauben mag, dass es erst seit etwa fünf Jahren existiert.

Die Zukunft von Hadoop

Um zu verstehen, was sich in dieser Zeit getan hat, haben wir mit Chuck Lam gesprochen, dem Autor des Buches Hadoop in Action. Nach seinen Worten zeigt Hadoop keine Neigung, sich auf seinen Lorbeeren auszuruhen: „Das gesamte Ökosystem hat sich definitiv weiterentwickelt und stark verändert. Jetzt gibt es sogar eine offizielle 1.0-Version. Noch wichtiger: Das zugrundeliegende Programmier-Modell für MapReduce wurde ebenfalls merklich überarbeitet“. Im Allgemeinen sind diese vielen Änderungen von Vorteil. Die Weiterentwicklung hat das Framework einfacher zu benutzen und in großen Unternehmen einsetzbar gemacht. Themen wie Sicherheit, die bei risikoaversen Organisationen stets eine große Rolle spielen, wurden angegangen.

Immer besser wird auch der ohnehin hohe Grad an Skalierbarkeit. Verteiltes Computing mit Hadoop bedeutet, dass Sie immer mehr Daten hinzufügen können, ohne dabei irgendwann ändern zu müssen, wie Sie das tun. Sie müssen keine Formate verändern, nicht an der Vergabe von Aufgaben herumschrauben und nicht neu vorgeben, welche Anwendungen dabei zum Einsatz kommen – Sie fügen einfach weitere Knoten hinzu. Auch müssen Sie nicht wählerisch sein, welche Datentypen Sie speichern oder woher diese kommen. Schema-frei ist hier das Zauberwort. Die Fähigkeiten des Frameworks für parallele Verarbeitung sorgen zudem für eine effizientere Nutzung von Storage auf Standard-Servern, so dass Unternehmen mehr Daten aufheben und nutzen können. Wenn irgendein Knoten ausfällt, ist das kein Problem – das System macht einen Failover, bei dem keine Daten verloren gehen und die Performance nicht leidet.

Ergänzende Technologien für Hadoop

Hadoop-Lösungen sind heutzutage zudem flexibler und geben Unternehmen die Möglichkeit, mit mehr Arten von Daten mehr zu tun. Diese Bereicherung ergibt sich durch viele Begleitprojekte von Hadoop, zu denen Sprachen wie Pig und die folgenden skalierbaren Lösungen gehören:

  1. Hive (Data-Warehousing)
  2. Mahout (Maschinenlernen und Data-Mining)
  3. HBase (strukturiertes Storage für große Tabellen)
  4. Cassandra (Multi-Master-Datenbank)

Natürlich funktioniert auch mit diesen Lösungen nicht immer alles reibungslos. Laut Lam hängen die größten Probleme mit Annahmen zusammen – der Fehler liegt also nicht im System, sondern bei uns: „Neue Technologie ist kein Allheilmittel für jedes Problem. So einfach diese NoSQL-Sachen sind, man muss das Problem, das man lösen will, trotzdem auf einer tiefen Ebene verstehen“. Das kann bedeuten, dass Sie sich genauer mit Ihren Algorithmen beschäftigen müssen, statt einfach alles zu MapReduce abzuschieben und davon auszugehen, dass Hadoop die Skalierung schon hinbekommen wird. Die Muster der Datennutzung haben Einfluss auf die Art der Skalierung, vor allem wenn die Nutzung nicht einheitlich ist. In solchen Fällen hilft eine lineare Skalierung unter Umständen nicht.

Auch hier liegt das Problem nicht bei Hadoop selbst. In den Augen von Lam sind die verfügbaren Werkzeuge reif genug für den Einsatz in Großunternehmen. Sichergestellt werden müsse nur, dass IT-Administratoren mit diesen Werkzeugen vertraut sind. Software-Architekten, die Hadoop einsetzen wollen, sollten außerdem wissen, wie sich die Technologie effektiv verwenden lässt.

Artikel wurde zuletzt im Juli 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Hadoop

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close