Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Das bringen YARN und die Unabhängigkeit von MapReduce für Hadoop 2

Mit Version 2 wird Hadoop Enterprise-fähig. Wir liefern Details zum neuen Ressourcen-Manager YARN sowie zu HDFS Federation und High Availability.

Wie bei den meisten 2.0-Versionen ist auch Apache Hadoop 2 ein potenziell wichtiger Schritt nach vorne für das...

verteilte Prozess-Framework auf Open-Source-Basis. Die erste Variante von Hadoop fand mehr und mehr Anklang, vor allem bei der Verarbeitung großer Mengen unstrukturierter Daten (Big Data) und als Staging-Bereich eingehender Informationen. Allerdings gab es auch einige wichtige Einschränkungen.

Hadoop 2 bringt einige große Vorteile im Hinblick auf die Architektur mit sich, zum Beispiel die Unterstützung für Batch-lose Applikationen, die sich mit anderen Programmiermodellen als MapReduce erstellen lassen. Weiterhin werden jetzt die Federation von HDFS-Operationen (Hadoop Distributed File System) sowie die Konfiguration redundanter HDFS-NameNodes unterstützt, um die Skalierbarkeit zu verbessern. Somit eliminieren Sie auch den Single Point of Failure (SPoF), der Teil des ursprünglichen Designs war. Im Großen und Ganzen wurde Hadoop 2 entwickelt, um die Nutzbarkeit von Hadoop für Enterprise-Applikationen zu verbessern.

Ambitionierte und neugierige Anwender wollen die neue Software verständlicherweise gleich ausprobieren, haben aber sicherlich noch einige Fragen bezüglich des Upgrades auf Hadoop 2. Nachfolgend finden IT-Manager, Data-Architekten, Entwickler und Business-Entscheider, die Hadoop 2 für einen Cluster-Einsatz in Augenschein nehmen, einige Antworten.

Seit wann steht Hadoop 2 zur Verfügung?

Die Apache Software Foundation hat Hadoop 2 im Oktober 2013 offiziell zur Verfügung gestellt. Vorher gab es eine Reihe von Alpha-Versionen, die ab Mai 2012 freigegeben wurden. Im August und September 2013 wurde jeweils eine Beta-Version veröffentlicht.

Inzwischen gibt es nicht mehr nur die zum Download freigegebene Community-Version, vielmehr haben auch kommerzielle Hadoop-Distributoren die neue Software ins Portfolio aufgenommen und bieten Kunden Hadoop 2 an. Wie bei anderen Open-Source-Produkten gilt auch hier, dass Bug-Berichte und Fehlerbereinigungen auf der Tagesordnung stehen. Sie sollten daher immer ein Auge auf neu gemeldete Probleme haben.

Was verbirgt sich hinter YARN?

Sie sollten immer im Hinterkopf behalten, dass es „mit Hadoop in der ersten Version um die Lernerfahrung ging“, so Dave Wells, Consultant bei Infocentric und Dozent am The Data Warehouse Institute. „Es ging hier mehr darum, Funktionen zu integrieren, weniger um Design oder Struktur“, so Wells weiter. Mit Hadoop 2 beginnt die Flickschusterei jetzt ein wenig abzunehmen; ein wesentlicher Grund für diesen Umstand ist eine neue Softwareschicht, die sich YARN nennt.

Hadoop 1.x hat HDFS mit dem parallelen Programmier-Modell MapReduce verbunden, das Batch-orientiert ist und somit den Einsatz für interaktive und iterative Analysen stark einschränkt. Damit war es so gut wie unmöglich, die Technologie in Echtzeit zu verwenden. Weil die Entwickler mit Hadoop 2 YARN ins Spiel brachten, ändert sich dies.

Auch wenn der Name YARN eher unscheinbar wirkt und für Yet Another Resource Negotiator steht, steckt dennoch wesentlich mehr dahinter, als auf den ersten Blick scheint. YARN ist ein komplett neuer Cluster-Ressourcen-Manager, der die vollständige Abhängigkeit von MapReduce und dessen Batch-Prozess-Format beendet. YARN separiert das Ressourcen-Management und die Job-Scheduling-Möglichkeiten der Hadoop-Datenverarbeitungsschicht. Daraus resultierend ist MapReduce jetzt nur noch eine unter vielen Prozess-Engines, die auf YARN in Hadoop-Clustern aufsetzen können.

Effektiv öffnet YARN ein Portal für andere Programmier-Frameworks und für neue Applikations-Typen, findet Consultant Douglas Moore von Think Big Analytics. „Bisher ließ sich Hadoop mit einem Güterzug vergleichen, der einfach nur Fracht ausgeliefert hat“, so Moore. Hadoop 2 hingegen unterstützt Programmieransätze, die die Software „um eine Rennstrecke flitzen lassen wie einen Lamborghini“, fügt er an.

Was verbirgt sich hinter HDFS High Availability (HA) und  Federation in Hadoop 2?

Im ursprünglichen Design hatte Hadoop als Plattform für parallele Abläufe einige große Schwächen. Die Cluster hingen von einem einzigen Namespace-Server ab, der sich NameNode nennt. Darin befindet sich ein Verzeichnisbaum der in HDFS enthaltenen Dateien, wodurch der NameNode weiß, wo die Cluster-Daten gespeichert sind. Damit wurde aber eine einzelne Kontrollinstanz geschaffen, die zu gravierenden Problemen führt, denn wenn der NameNode ausfällt, können Sie nicht mehr auf dessen Informationen zugreifen – ein Single Point of Failure. Außerdem wirkt sich dieser Umstand auf die Ausweitung und Skalierbarkeit des Clusters negativ aus und hat somit Einfluss auf die Performance.

Diese Probleme führten zur Entwicklung der neuen High-Availability (HA)- und Federation-Features für HDFS. Nun lassen sich Paare redundanter NameNodes konfigurieren, wodurch Sie eine Backup-Lösung zur Verfügung haben, falls der aktive NameNode ausfallen sollte. Das gilt natürlich auch für eventuell anfallende Wartungsarbeiten. Ebenso können Sie nach Belieben unabhängige NameNodes, die einen Pool an Daten gemeinsam benutzen, hinzufügen. Moore nannte es ein „Verteilen der Prozess-Last“.

William Bain, CEO des In-Memory-Data-Grid-Herstellers ScaleOut Software, ist der Meinung, dass die neuen Möglichkeiten dringend notwendig waren, da „Single Points of Failure in verteilten Umgebungen inakzeptabel sind.“ HDFS Federation und High Availability legen auch den Grundstein für das Verarbeiten größerer Datenmengen, so der leitende Architekt des Software Development Services Providers Impetus Technologies Sanjay Sharma. Gerade das Federation-Schema ist notwendig, um die Datenverarbeitungsmöglichkeiten von Hadoop „auf Petabyte-Ebene“ zu erweitern, fügte er an.

Ist Hadoop 2 damit fit für den Enterprise-Einsatz?

Weil Hadoop nun nicht mehr auf MapReduce angewiesen ist und zusätzlich HDFS Federation plus High Availability verfügbar sind, ist das ein großer Schritt in Richtung Marktreife von Hadoop auch im Enterprise-Einsatz. Die Technologie unterstützt nun außerdem Windows und Point-In-Time-Data-Snapshots für Backup- und Disaster-Recovery-Zwecke.

Allerdings kann Hadoop in Teilen immer noch eine komplizierte Plattform sein, was einerseits mit der Offenheit der Plattform zusammenhängt und andererseits mit der Abhängigkeit des facettenreichen Ökosystems bezüglich der unterstützten Tools, mit denen man den Ansprüchen von Enterprise-Applikationen begegnet. In der Regel müssen Sie eine gewisse Aufbauarbeit leisten, um Hadoop-basierte Umgebungen auf die Beine zu stellen. Zudem befindet sich Hadoop in einem ständigen Wandel, weshalb Unternehmen immer wieder prüfen müssen, auf welchem Stand Hadoop aktuell ist.

Die Veröffentlichung von Hadoop 2 hat aber gezeigt, dass sich die Ansichten im Hinblick auf das Framework in den vergangenen Jahren geändert haben. Dieser Meinung ist Doug Cutting, der an den Anfängen von Hadoop mitgearbeitet hat. Damals arbeitete er bei Yahoo!, heute ist er leitender Architekt des Hadoop-Anbieters Cloudera.

„Im Jahre 2009, bei Herausgabe der Version 0.20, sahen die meisten Leute in Hadoop ein nützliches Tool“, sagt Cuttings, „das in erster Linie eine MapReduce-Engine zur Verfügung gestellt hat, die skalierbares und zuverlässiges Batch-Computing für Unternehmen ermöglichte. Heutzutage aber unterstützt Hadoop eine viel breitere Palette an Workloads.“

Auch wenn Hadoop 2 viele Neuerungen ins Spiel gebracht hat, so bleibt die Software für viele Nutzer noch Neuland und birgt weiterhin Hoffnung und Fallstricke gleichermaßen.

Über den Autor:

Jack Vaughan ist Redakteur für SearchDataManagement. Sie können ihn unter jvaughan@techtarget.com erreichen oder ihm auf Twitter folgen: @sDataManagement.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im März 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close