Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

YARN bietet Hadoop-2-Anwendern neue Einsatzmöglichkeiten

Der Ressourcen-Manager YARN in Hadoop 2 beendet die MapReduce-abhängige Verarbeitung. Damit bieten sich neue Einsatzoptionen für Big Data Analytics.

Selbst die glühendsten Verfechter werden zugeben müssen, dass die Kombination von Hadoop und MapReduce die Einsatzmöglichkeiten...

der Open-Source-Technologie eingeschränkt hat. Doch mit der Einführung von Hadoop 2 und seiner Schlüsselkomponente, dem Ressourcen-Manager YARN, wurde aus dem verteilt arbeitenden Framework eine Plattform für neue Anwendungen, in die verschiedene Tools integriert sind.

Zum Beispiel ermöglicht Hadoop 2 die Echtzeit-Verarbeitung und -Analyse von Streaming-Daten für Synapse Wireless, eine Hersteller intelligenter, über ein drahtloses Mesh-Netzwerk verbundener Steuerungs- und Überwachungssysteme. Nach heutigem Sprachgebrauch schafft das Unternehmen ein Internet der Dinge, das Betriebsdaten von Sensoren und Geräten beim Kunden über das Internet sammelt. Zu den weiteren Nutzungsmöglichkeiten gehört aber auch die Überwachung von Gesundheitsdaten oder Solarkollektoranlagen für Gewerbe- und Privatanwender.

Synapse Wireless plant nun die Kombination von Hadoop 2 und Storm, einer Open-Source-Streaming-Data-Engine, um Kunden in Echtzeit Business-Intelligence- und Analyse-Optionen zur Verfügung zu stellen. „Unser System kann mit hoher Geschwindigkeit ankommende Datenströme aus allen Remote-Geräten erfassen“, erklärt Bryan Stone, Cloud Architect und leitender Plattformentwickler bei dem Unternehmen. Mit der Kombination von Hadoop 2 und Storm „erfassen wir nicht einfach nur Daten. Wir können auch entsprechende Maßnahmen einleiten. Wir können sie so präsentieren, dass sie aussagekräftig sind und in die Geschäftsentscheidungen unserer Kunden einfließen.“

Mit Datenintegrations-Tools des Softwareanbieters Pentaho entwickelten Stone und seine Kollegen bei Synapse Wireless eine Pilotanwendung für die Überwachung im Gesundheitswesen, bei der Storm auf YARN in Hadoop-2-Clustern aufsetzt. Diese Anwendung soll eine bessere Hygiene in Krankenhäusern sicherstellen und ein Beispiel dafür sein, was passieren kann, wenn Big Data, Cloud Computing und das Internet der Dinge aufeinandertreffen.

Bei diesem Anwendungsbeispiel verfolgen Tags in den Namensschildern der Krankenschwestern deren Bewegungen im Krankenhaus. Andere Tags sammeln Daten über die Verwendung von Handreinigungsspendern. Wenn eine Krankenschwester ein Patientenzimmer betritt, startet der Timer, der die Nutzung des Spenders kontrolliert. Wenn die Anwendung nicht registriert, dass der Spender benutzt wurde, „können wir eine Warnung an das Namensschild der Schwester schicken, um sie zu erinnern, dass sie ihre Hände waschen muss“, ergänzt Stone.

Vorteil gegenüber MapReduce-abhängiger Verarbeitung

Mit der ursprünglichen MapReduce-abhängigen Version von Hadoop konnte Synapse Wireless die Daten erfassen und analysieren, aber eine unmittelbare Reaktion darauf war nicht möglich. Stone sieht zwar immer noch einen Nutzen in MapReduce-basierter Verarbeitung und Analytik. Aber mit YARN „wird Hadoop zu [einer Plattform], auf die man Anwendungen aufsetzen kann“, erklärt er. „Man kann immer noch MapReduce in Batch-Prozessen nutzen. Jetzt sind aber auch andere Applikationen möglich.“

Allein die gleichzeitige Verarbeitung der Daten macht Hadoop 2 viel attraktiver für viele Unternehmen
Philip Russom, Data Management Research Director, The Data Warehousing Institute

Bei Yahoo, wo Hadoop als Erstes zum Einsatz kam, werden Hadoop 2 und YARN seit September 2012 getestet. Yahoo entwickelte eine „Storm-on-YARN“-Anwendung, um eine schnellere Verarbeitung der Aktivitätsdaten von Websitenutzern zu erreichen, nachdem ein MapReduce-Batch-Programm nicht mehr in der Lage war, die Daten schnell genug für die Analyse- und Reporting-Bedürfnisse des Unternehmens zu bearbeiten. Yahoo gab die Anwendung im Oktober 2013 als Open-Source-Technologie frei.

In einem Vortrag auf dem Hadoop Summit 2013 beschrieb der bei Yahoo für Plattformen zuständige Senior Fellow und Vice President Bruno Fernandez-Ruiz YARN als flexibles Zahnrad im Hadoop-System, mit dem die Echtzeit-Verarbeitung in Hadoop-Clustern viel effizienter wird im Vergleich zu früher, als nur MapReduce-Anwendungen möglich waren.

„Das Problem bei MapReduce ist die Stapelverarbeitung“, erklärt er und fügt hinzu, dass Nutzer wie Yahoo es sich nicht leisten können, ihre Daten zur Verarbeitung in eine Warteschlange einzureihen und zu warten, bis ein dreistündiger Batch-Job erledigt ist.

Die von YARN gebotenen Möglichkeiten veranlassten sogar die Apache Software Foundation, die für die Entwicklung von Hadoop zuständig ist, und Anbieter wie das Spin-off-Unternehmen von Yahoo, Hortonworks, es als Betriebssystem zu bezeichnen. Nach Ansicht von Branchenanalysten ist das wohl etwas übertrieben. Sie sind sich aber einig, dass YARN eine Möglichkeit bietet, die Nutzung der Hadoop-Systeme auszubauen. 

YARN als Betriebssystem zu bezeichnen „ist großzügig“, so Nick Heudecker, Analyst bei Gartner. Für ihn ist es eher ein Anwendungsserver, so wie die Java-Middleware-Engines, die Ende der 90er-Jahre aufkamen. Und das ist nach Ansicht von Heudecker praktisch für die Nutzer: „Entwickler können unterschiedliche Frameworks einfügen, die sich zum Teil eng in den gesamten Hadoop-Stack einbinden lassen.“

Mehr Arbeit für Hadoop

Nach Ansicht von Philip Russom, Data Management Research Director bei The Data Warehousing Institute, ist die Fähigkeit von YARN, gleichzeitig mehrere Bearbeitungsaufträge auszuführen und zu verwalten, eine Eigenschaft, zu der jedes Betriebssystem in der Lage sein müsste. 

Mehr zum Thema Hadoop:

Wann Sie Hadoop einsetzen sollten – und wann nicht.

Hadoop zur Leistungssteigerung mit anderen Big-Data-Frameworks mischen.

Cloud-Storage-Optionen: Object Storage oder Hadoop?

Hadoop-Integration von SAP: Diese Möglichkeiten bietet das Softwarehaus an.

Bessere Datenqualität mit Big-Data-Analytics und Hadoop.

„Allein schon diese Gleichzeitigkeit macht Hadoop 2 viel attraktiver für viele [Organisationen]. Damit können mehrere Nutzer mit unterschiedlichen Anwendungsarten gleichzeitig in der Hadoop-Umgebung arbeiten.“ 

Heudecker fügt hinzu, dass es für Nutzer mit YARN auch möglich sein muss, mehrere Hadoop-Cluster, die für die gleichzeitige Ausführung von Jobs angelegt wurden, in einem großen System zusammenzufügen. Statt also das Hadoop-Äquivalent zu Data Marts zu nutzen, können IT-Manager Systeme kombinieren und die Technologie-, Verarbeitungs- und Verwaltungskosten besser unter Kontrolle halten. 

Nach Ansicht von James Dixon, Gründer und Chief Technology Officer (CTO) von Pentaho, „wird YARN die Menge der MapReduce-Codes reduzieren, die geschrieben werden müssen“, was für die Nutzer ein großer Schritt nach vorn sei. Dixon spricht klare Worte, wenn er die Grenzen von MapReduce beschreibt. Nach seiner Ansicht werden damit nur ganz wenige Verarbeitungsanforderungen abgedeckt.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Juni 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close