Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Hadoop 2 bietet für Big-Data-Umgebungen eine bessere Analytics-Verarbeitung

MapReduce bremste Hadoop in der Vergangenheit aus. Hadoop 2 und YARN ermöglichen Echtzeitverarbeitung und Big-Data-Analytik deutlich besser.

In einem Gespräch mit Projektteammitgliedern eines Kunden zeigte mir einer von ihnen eine interne Präsentation,...

mit der er dem Management sowie den IT-Entwicklungs- und Implementierungsgruppen die Vorteile von Big Data im Allgemeinen und Hadoop im Besonderen vermitteln wollte. Ein interessanter Aspekt der Präsentation war der Vergleich von Hadoop mit früheren Rechner-Ökosystemen und die Ausgestaltung des dezentralen Open-Source-Frameworks als ein Betriebssystem für Big-Data-Umgebungen.

Zu der Zeit, als die Präsentation zusammengestellt wurde, ging diese Charakterisierung wohl noch etwas zu weit. Die Kernkomponenten des ersten Hadoop-Release waren das Hadoop Distributed File System (HDFS) für die Speicherung und Verwaltung von Daten und die Implementierung des MapReduce-Programmiermodells. Zu diesem Modell gehören APIs, Runtime-Unterstützung für MapReduce-Jobs und eine Ausführungsumgebung, die die Infrastruktur für die Zuweisung von Ressourcen in Hadoop-Clustern und anschließend die Ausführungsplanung und Überwachung von Jobs bereitstellt. 

Diese Komponenten standen stellvertretend für Funktionen eines Betriebssystems, aber die Architektur schränkte die Verarbeitungsfunktionen ein, und der JobTracker-Ressourcen-Manager und die Anwendungslogik sowie die Datenverarbeitungsschichten waren in MapReduce kombiniert.

Doch was bedeutete dies für die Nutzung von Business-Intelligence- und Analytikanwendungen? Es hatte einen stark hemmenden Effekt: Die Möglichkeiten der Aufgabenplanung sahen zwar die Parallelausführung von MapReduce-Anwendungen vor, aber für gewöhnlich konnte jeweils nur ein Batch-Job ausgeführt werden. Das verhinderte im Grunde das Verschachteln (Interleaving) unterschiedlicher Analysearten in Hadoop-Systemen. Batch-Analyseanwendungen mussten über Cluster-Knoten ausgeführt werden, die von einer Frontend-Abfrage-Engine mit Datenzugriff auf HDFS getrennt waren.

Statischer Ansatz behindert Verarbeitung

Zudem war die Ressourcenzuweisung de facto statisch – als Reduce-Knoten zugewiesene Knoten sind in der Map-Phase der Anwendung inaktiv, wogegen während des Reduce-Prozesses das Gegenteil der Fall ist. Dementsprechend sind Knoten, die zur Echtzeitverarbeitung genutzt werden können, nicht verfügbar.

Und schließlich unterstützte die Serienplanung von Batch-Jobs in einem Cluster weder MapReduce-Multitasking noch die Ausführung von MapReduce-Anwendungen gleichzeitig mit anderen Anwendungen, die mit anderen Programmiermodellen entwickelt wurden. Das beeinflusste auch die Fähigkeit von Hadoop-Nutzern, Ad-hoc-Abfragen oder Echtzeit-Datenanalysen zu starten. 

Wenn Sie sich eingehender mit dem Hadoop-2-Release befassen, werden Sie sehen, dass nun einige der Funktionen des JobTrackers von MapReduce getrennt wurden. Damit sollen einige der Beschränkungen in der ursprünglichen Entwicklungs- und Ausführungsarchitektur von Hadoop beseitigt werden. Das sind erfreuliche Nachrichten für Organisationen, die analytische Anwendungen mit Hadoop-Systemen ausführen wollen.

Die Grundidee hinter YARN, einer der wichtigsten Ergänzungen bei Hadoop 2, ist die Trennung des Ressourcen-Managements vom Anwendungs-Management. Statt bei Planungs- und Verarbeitungsaufgaben auf MapReduce zu setzen, werden diese Aufgaben jetzt von separaten Komponenten ausgeführt. Zu YARN gehören ein ResourceManager, der für die Einplanung von Jobs und die Verteilung von Ressourcen in einem Cluster zuständig ist, und ein NodeManager, der die Operationen in einzelnen Rechenknoten beaufsichtigt.

Der ResourceManager ist aber nicht für den Ausführungsprozess der Anwendung zuständig. Bei Hadoop 2 wird jede Anwendung von einem eigenen ApplicationMaster gesteuert, der den Ressourcenbedarf feststellt, die erforderlichen geeigneten Ressourcen anfordert und mit den Knoten-Agenten zusammenarbeitet, um Jobs auf den Weg zu bringen und deren Fortschritte zu verfolgen.

Höher, weiter, schneller

Diese Änderungen wirken sich positiv auf die Fähigkeit des Hadoop-Frameworks aus, Echtzeitanalysen und Ad-hoc-Abfragen zu unterstützen. Erstens kann der ResourceManager dank der Abtrennung des Ressourcen-Managements von Anwendungs-Management und Verarbeitung die zum Cluster gehörenden CPUs, Festplatten und Speicherressourcen effizienter und effektiver zuweisen.

Mehr zum Thema Big Data:

Essential Guide Big Data: Anwendung, Datenschutz und Technologie.

Die zwei größten Big-Data-Fehler – und wie sie vermieden werden.

Security ist auch ein zentrales Big-Data-Thema.

Fünf Schritte auf dem Weg zu effektiver Big-Data-Analytics.

Big-Data-Analytics: Einsatzszenarien für die (IT-) Security.

Die Trennung bewirkt aber nicht nur ausgewogenere Workloads in den Cluster-Knoten; vielmehr können Nutzer dadurch auch auf YARN aufgesetzte MapReduce-Anwendungen und andere Anwendungen gleichzeitig laufen lassen. Die ist zusätzlich zu den MapReduce-Batch-Jobs möglich, zu denen beispielsweise ereignis- und datenstrombasierte Verarbeitung, NoSQL-Datenbanken, interaktive Abfragen sowie Graph-Processing- und Analyseanwendungen gehören.

Auch bei der Möglichkeit, verschiedene Anwendungsarten gleichzeitig relativ isoliert ablaufen zu lassen, wird jetzt ein Problem in Angriff genommen, das bei Open-Source-Technologien manchmal übersehen wird: Datenschutz und Systemsicherheit. Die Integration aller Aufsichts- und Überwachungsfunktionen für einzelne Jobs in den ApplicationMaster verhindert fehlerhafte oder schädliche Codes, die von einer Anwendung auf eine andere übergehen. Damit wird eine größere Verarbeitungssicherheit in einer Big-Data-Umgebung erreicht. 

Die durch YARN erreichten Verbesserungen sind der Erkenntnis geschuldet, dass Hadoop „härter“ gemacht werden und sich in Richtung eines allgemeineres Betriebssystemmodells weiterentwickeln muss. Außerdem wird die analytische Flexibilität von Hadoop deutlich verstärkt: Mit Hadoop 2 finden Echtzeit-Analytik, Batch-Analyse und interaktives Daten-Management ihren Platz in der Big-Data-Umgebung.

Über den Autor:
David Loshin ist President von Knowledge Integrity, einem Beratungs-, Schulungs- und Entwicklungsdienstleister, der mit Kunden an Projekten für Big Data, Business Intelligence und Daten-Management zusammenarbeitet. Außerdem hat Loshin zahlreiche Bücher geschrieben, die sich mit Big-Data-Analytik befassen.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Juni 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close