Hadoop zur Leistungssteigerung mit anderen Big-Data-Frameworks kombinieren

Hadoop ist das Big-Data-Tool. Viele Anwender sind aber der Meinung, erst die Kombination mit anderen Technologien bringt Big-Data-Anwendungen voran.

Auf der Strata+Hadoop World 2014 in New York berichteten Unternehmensanwender über ihre Erfahrungen mit der Kombination von Hadoop und einer Vielzahl anderer Big-Data-Frameworks. Man möchte auf diese Weise leistungsstärkere Data Processing Plattformen erschaffen, wurde berichtet. Doch einige Referenten wiesen auf eine mögliche Zukunft hin, in der Hadoop sich aus dem Rampenlicht herausbewegt – und Teil der normalen Unternehmens-IT wird.

Hadoop zusammen mit Big-Data-Tools und Technologien wie Spark, SparQL und Hive standen dabei im Fokus - und zwar sowohl kommerzielle als auch Open-Source-Versionen. Viele der referierenden Daten-Management-Teams waren mit der Aufgabe beauftragt worden, diese Tools zu kombinieren, um Big-Data-Anwendungen besser zu unterstützen. Ein Teil der Anwesenden berichtete von ihren Erfahrungen, ein anderer Teil konnte neue Erfahrungen sammeln.

„Vor fünf oder zehn Jahren hatten wir eine Big-Data-Herausforderung. Wir hatten aber keine Big-Data-Technologie, um die Probleme anzugehen“, sagt Peter Farne, CTO für Compliance Technologie beim New Yorker Finanzdienstleister Goldman Sachs. „Nun sind diese Frameworks, bei denen Sie die Verarbeitung über ein Cluster verteilen können, ausgereift.“

Laut Farne war Goldman Sachs schon immer ein Unternehmen, das sich bei der Frage „Software Tools selbst bauen oder kaufen“ für die Build-Seite entschieden hat. Was für Goldmann Sachs jedoch auch neu ist, ist der Open-Source-Charakter der Big-Data-Tools und die verringerten Kosten der Datenspeicherung. „Es ist aufregend. Die Standards sind ebenfalls erwachsen geworden,“ sagt er.

In der Vergangenheit wendeten IT-Anbieter nicht unbedingt offene Standards an. Nun sind solche Standards allgegenwärtig geworden und einfacher zu nutzen, fügte er während einer Projekt-Präsentation hinzu. In diesem Vortrag stellte Farne eine eigenentwickelte Graph-Datenbank vor, die eine einheitliche Sicht auf Daten für Compliance und Customer Relationship Management (CRM) liefert. 

Um die Datenbank zu füttern, verwendet Goldman Sachs ein Hadoop-System zusammen mit zwei Technologien, die vom World Wide Web Consortium (W3C) standardisiert wurden: das Datenaustauschmodell Resource Description Framework (RDF) und SparQL, eine Abfragesprache, die RDF unterstützt.

Ein Sammelsurium von Open-Source-Werkzeugen

Der Tsunami von Big-Data-Framework-Projekten rund um Hadoop ist nur schwer zu überblicken. Aber einige Daten-Profis begrüßen die Fülle von Open-Source-Optionen.

„Open-Source-Technologien werden permanent erneuert. Dadurch arbeiten nicht nur unsere eigenen Entwickler am Fortschritt mit“, sagt Kevin Murray, Vice President für Informations-Management-Infrastruktur und Integration bei American Express in New York.

Auf der Strata + Hadoop World beschrieben Murray und ein Kollege eine Web-Empfehlungs-Anwendung, die sich in Partner-Websites einbetten lässt und die mit einer ganzen Palette von Hadoop-Elementen und Erweiterungen gebaut wurde: Hive, Pig, Mahout, HBase, MapReduce und dem Hadoop Distributed File System (HDFS). 

Murray sagt, dass diese Kombination als reproduzierbare Big-Data-Plattform geplant wurde und irgendwann unternehmensweit in einer Vielzahl von Anwendungen genutzt werden soll. Andere Techniken können ebenso eingesetzt werden. „Wir werden die Plattform mit neuen Werkzeugen ausstatten, sobald diese auf den Markt kommen“, sagt er.

Er vergleicht die aktuelle Vielzahl von Werkzeugen mit der traditionelle Situation in der IT: „Früher, als Sie ein Data Warehouse gebaut haben, hatten Sie vielleicht vier Möglichkeiten. Jetzt haben Sie Hunderte.“

Dennoch, sagt Murray, ist es weiter notwendig, zu entscheiden: „Hadoop – Ja oder Nein“. Anwendungsfälle müssten sorgfältig ausgewählt werden: Unstrukturierte Daten seien tendenziell Hadoops „Sweet-Spot“. Er betont daher, dass die neuen Bemühungen das herkömmliche Data Warehouse von Amex nicht verdrängen.

Wird Hadoop verschwinden?

Hadoop wurde häufig genannt, als Nutzer auf der Konferenz Alternativen zu herkömmlichen Data Warehouses diskutierten. Allerdings stand Hadoop zeitweilig im Schatten von Apache Spark, eine der neuen Technologien des Big-Data-Frameworks.

Konzipiert als ein schnellerer Ersatz für die batch-orientierte MapReduce Verarbeitungs-Engine, mit der Hadoop 1.0 verknüpft war, wurde Spark besonders für Anwendungen im Bereich iteratives, maschinelles Lernen angekündigt – was teilweise an seiner In-Memory-Verarbeitungsarchitektur liegt.

Mehr zum Thema Hadoop:

Cloud-Storage-Optionen: Object Storage oder Hadoop?

Hadoop-Integration von SAP: Diese Möglichkeiten bietet das Softwarehaus an.

Bessere Datenqualität mit Big-Data-Analytics und Hadoop.

Hadoop-Tools für ein kontinuierliches Daten-Management von Big Data.

Verschiedene Anbieter von Hadoop Distributionen haben bereits Interesse an Spark bekundet. Sie haben neue Produkte und Integrationspläne angekündigt, die die Technologie in den letzten Wochen integriert haben. 

Cloudera veröffentlichte beispielsweise Cloudera Enterprise 5.2 mit Verbesserungen an seiner Spark-Komponente. 

MapR Technologies kündigte eine Initiative an, Spark in Apache Drill zu integrieren, einem SQL-on-Hadoop-Tool. Pivotal Software baute ein Spark-Bundle in seine HD 2.0.1 Distribution ein. Und Hortonworks machte das gleiche bei seinem HDP 2.2 Release.

Mike Olson, Cloudera Gründer und Chief Strategy Officer, sieht aber eine Verlangsamung dieser Entwicklung. Dies betrifft allerdings nicht die Einführung und Nutzung der Technologie.

„Wir werden sehen, dass Hadoop verschwindet“, sagt Olson bei seiner Keynote. Was er meint, ist, dass Hadoop im Big-Data-Background „aufgehen“ wird: Er beschreibt Hadoop als ein grundlegendes, aber kompliziertes Stück Technik. Das wird allerdings erst dann wirklich Mainstream werden, wenn Business-Anwender es nutzen können, ohne zu merken, dass es ihren Analyseanwendungen zu Grunde liegt.

„Unabhängig davon, ob Hadoop verschwinden wird oder nicht: Die inhaltliche Ausgestaltung von Hadoop wird sich definitiv weiterentwickeln“, sagt Matthew Aslett, Unternehmenssoftware-Analyst bei The 451 Group. „Hadoop wird ein integraler Bestandteil einer neuen Big-Data-Plattform werden, für die es allerdings noch keinen konkreteren Begriff gibt.“

Ron Kasabian, Vice President und General Manager für Big-Data-Lösungen bei Intel, sagt, man suche zur Verbesserung der Big Data Systeme nach weiteren Entwicklungen und Technologien für die Kernkomponenten von Hadoop. „Sie werden sehen, dass die Definition von Hadoop erweitert wird“, erklärt er. „Die Definition von Hadoop ist noch nicht am Ende.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im März 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close