echiechi - Fotolia

Hadoop aus der Cloud: Anbieter vereinfachen ihre Lösungen

Viele Anwender schauen zunehmend nach Cloud-Angeboten für das Big Data Management. Mehrere Anbieter vereinfachen daher Hadoop-Lösungen aus der Cloud.

Die Kombination aus Big Data und Cloud Computing entwickelt sich zu einer Herausforderung für Hadoop- und andere Big-Data-Anbieter. Einige antworten hierauf mit neuen Ansätzen, die es für Nutzer einfacher und kostengünstiger machen, ein Hadoop-Cloud-System einzusetzen.

Cloudera hat zum Beispiel Ende September 2016 neue Messfunktionen im Cloudera Director für die Verwaltung von Clustern in der Cloud eingefügt. Damit können Cloudera-Nutzer ein nutzungsbasiertes Preismodell anwenden, anstatt für Cloud Cluster auf einer Per-Node-Basis zahlen zu müssen. Dies ermöglicht es, transiente Systeme auszuführen, die für einen bestimmten Zweck eingerichtet, verwendet und wieder herausgenommen werden, um laufende Kosten zu vermeiden.

Benutzer können nun außerdem Cluster in mehreren Regionen und Verfügbarkeitszonen innerhalb einer Big-Data-Cloud-Umgebung von einer einzigen Cloudera Director Instanz aus bereitstellen. Darüber hinaus ermöglicht das neue Release von Cloudera Enterprise, der Hadoop-basierten Big-Data-Plattform des Anbieters, dass die SQL on Hadoop Abfrage-Engine Apache Impala direkt gegen Amazon Simple Storage Service (S3) Data Stores arbeiten kann. Das beseitigt die Notwendigkeit, Daten für die Abfrage auf das Hadoop Distributed File System (HDFS) schieben zu müssen und ist ein weiterer Schritt, der die Implementierung von transienten Clustern in der AWS-Cloud ermöglicht.

Preisgestaltung und Unterstützung von Impala-on-S3 sind nach Ansicht von Narasimhan Sampath, Systemarchitekt bei Choice Hotels International, eine willkommene Entwicklung. Das Unternehmen betreibt Cloudera-basierte Cluster in der AWS-Cloud, zusammen mit Technologien wie der Datenverarbeitungs-Engine Spark und dem Messaging-System Kafka, um eine Reihe von Self-Service-Analytics-Anwendungen zu unterstützen.

Das eigene Cluster in die Cloud bringen

Während einer Session auf der Strata + Hadoop 2016 Ende September erläuterte Sampath, dass Choice einen BYOC-Ansatz – also Bring Your Own Cluster – verfolgt, der On-Demand-Computing für Geschäftsprozesse in einer Cloud-Umgebung erlaubt. Zum Beispiel kann ein Cluster für die Marketing-Abteilung „hochgefahren werden, den Job ausführen und wieder abgeschaltet werden, wenn die Aufgabe erfüllt ist“, sagt er. Auf ähnliche Weise wird ein Entwicklungs-Cluster für das IT-Team zwölf Stunden täglich ausgeführt und über Nacht offline geschaltet, um die AWS-Rechnung niedriger zu halten.

„Die Preisgestaltung von Cloudera passt gut mit diesem Ansatz zusammen“, sagt Sampath nach der Session. „Ich muss keine 500 [Cloudera] Lizenzen kaufen, wenn ich sie nicht die ganze Zeit brauche. Es ist das gleiche Modell wie bei Amazon.“

Mehr zum Thema Hadoop:

Wie Apache Hadoop beim Big Data Management helfen kann.

Neue Tools bieten einen besseren Einblick in das Management von Hadoop-Clustern.

Mit dem Hadoop Distributed File System (HDFS) Big Data bewältigen.

SQL-on-Hadoop bietet für Analytics zahlreiche neue Möglichkeiten.

Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.

Er fügt hinzu, dass Choice über die vergangenen sechs Monate eng mit Cloudera an der Verknüpfung von S3 und Impala zusammengearbeitet hat. Impala wurde ursprünglich von Cloudera entwickelt und ist mittlerweile als Open-Source-Software verfügbar. Choice verwendet S3 als Datenspeicher. „Die neue Abfrageunterstützung in Impala bietet zusätzliche Flexibilität für die BYOC-Strategie“, erläutert Sampath. „Andernfalls bräuchte man einen zentralen Ort, um die Daten zu speichern.“

David Tishgart, Director Cloud Product Marketing bei Cloudera, sagt, dass sein Unternehmen in den letzten 18 Monaten ein wachsendes Interesse bei Kunden für die Cloud- Nutzung festgestellt hat. Doch bisher „hatten wir keine gute Lösung für transiente Spin-up, Spin-down Workloads“, erklärt er. Im Ergebnis mussten die meisten Cloudera-Nutzer, die in die Cloud gegangen sind, persistente Cluster ausführen.

In der Hadoop-Cloud bleiben

Da immer mehr Nutzer in die Cloud gegangen sind, hat es diese Einschränkung für Cloudera schwer gemacht, gegen Amazon Elastic MapReduce (EMR), der Hadoop-Cloud-Plattform von AWS, zu bestehen. Cloudera hätte aber auch gegenüber Microsoft Azure HDInsight, einem Big-Data-Cloud-Service, der auf der Hadoop-Distribution von Hortonworks basiert, einige Nachteile gehabt.

„EMR hat AWS bereits zum größten Hadoop-Anbieter gemacht, wenn man die Zahl der Nutzer berücksichtigt“, sagt Gartner-Analyst Merv Adrian. „Ursprünglich lag AWS weit hinter den Hadoop-Rivalen zurück, wenn es um die Implementierung neuer Releases verschiedener Apache Big Data Tools als Teil von EMR ging. Doch das hat sich in den letzten zwei Jahren geändert. Mittlerweile hat Amazon mehr Hadoop-Anwender als alle anderen Anbieter zusammen.“

Hortonworks hat sich ebenfalls auf die Erweiterung seiner Hadoop-Cloud-Fähigkeiten auf der Strata-Konferenz konzentriert: HDInsight läuft nun auf Version 2.5 seiner Hortonworks Data Platform (HDP) Distribution, die bereits Ende August 2016 vorgestellt wurde. Hortonworks unterstützt außerdem die Integration zwischen Microsoft Azure Active Directory and Apache Ranger, einem Framework für das Management der Datensicherheit und Benutzerzugriffsrechte im Hadoop-System.

Trotz seiner engen Verbindung zur Microsoft-Cloud, bietet Hortonworks auch eine technische Preview von HDP an, die es AWS-Nutzern erlaubt, vorübergehende Hadoop-Cluster mit Apache Spark und Hive einzusetzen.

„Wir haben verstanden, dass wir Workloads für verschiedene Cloud-Provider anbieten müssen“, sagt Matt Morgan, Senior Vice President Global Marketing bei Hortonworks. Ein Datum für die generelle Verfügbarkeit nennt er allerdings nicht. Die Testversion wurde Ende Juni 2016 veröffentlicht.

Paxata ist ebenfalls in das Cloud-Geschäft eingestiegen. Der Anbieter von Self-Service-Datenaufbereitungssoftware bietet mit Paxara Connect ein neues Tool, das Daten von Clustern zusammenführt, die in unterschiedlichen Hadoop-Distributionen laufen, einschließlich separaten Cloud-Plattformen.

„Eine Menge Hadoop Workloads bewegen sich in die Cloud“, sagt Nenshad Bardoliwalla, Chief Product Officer bei Paxata. „Ein großer Teil der Anziehungskraft der Cloud besteht in der Fähigkeit, ‚vergängliche‘ Cluster zu erstellen, die einen bestimmten Job ausführen und sich dann wieder ausschalten lassen.“

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im November 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close