Neue Big-Data-Technologie: Apache Spark 1.0 soll Leistungsschub bringen

Die Apache Software Foundation hat Spark 1.0 im Mai veröffentlicht. Spark soll durch In-Memory-Verarbeitung bessere Leistungen für Big Data bringen.

Die Apache Software Foundation hat Ende Mai Spark Version 1.0 vorgestellt, einem Datenverarbeitungs-Framework,...

das MapReduce bei der Performance für maschinelles Lernen und andere Anwendungen ausstechen soll.

Nachdem die Datenverarbeitungs-Engine Apache Spark mehrere Jahre im Schatten von Hadoop stand, tritt sie nun ins Rampenlicht für die Verwendung in Big-Data-Architekturen. Im Februar 2014 wurde Spark bereits zu einem Top-Level-Projekt der Apache Software Foundation erhoben, nachdem es sich acht Monate im Apache Incubator befand.

„Version 1.0 des Spark-Projekts bedeutet, dass die Software binnen kurzer Zeit einige bedeutende Meilensteine erreicht hat“, sagt Chris Mattmann. Er ist leitender Architekt des NASA Jet Propulsion Laboratory in Pasadena (Kalifornien) sowie Mitglied des Apache-Vorstandes. „Spark hat sich großartig entwickelt.“

Spark wurde mit dem Ziel entwickelt, eine schnellere, Cluster-basierte Datenverarbeitung zu bieten als MapReduce, dem Software-Framework, das ursprünglich die Entwicklung von Hadoop-Anwendungen vorantrieb. Die neue Software verarbeitet die Daten In-Memory. Laut Mattmann unterstützt Spark interaktive Abfragen und iterative Datenverarbeitungen sowie Echtzeit-Prozesse besser.

Die Spark-Entwickler wollten sicherstellen, dass die Technologie mit dem Hadoop Distributed File System (HDFS) und anderen Hadoop-Repositories, wie zum Beispiel den NoSQL-Datenbanken HBase und Cassandra, kompatibel ist. Die Technologie kann Hadoop-Systeme auf Basis von YARN verwenden. Dahinter verbirgt sich ein Cluster-Ressourcen-Manager, der in Hadoop 2 enthalten ist und auch andere Anwendungen als MapReduce unterstützt.

Mattmann zudem darauf hin, dass sich die Software unabhängig von Hadoop einsetzen lässt. Spark 1.0 bringt eine Spark-SQL-Komponente mit, um Schema-basierte Datenmodellierung mithilfe der SQL-Programmiersprache zu unterstützen. Mit diesem Schritt soll der wachsende Bedarf für Abfragen von strukturierten und unstrukturierten Daten in parallel arbeitenden Anwendungen gelöst werden.

In-Memory mit Spark 1.0

Spark wurde von der University of California in Berkley vorangetrieben, um ein höheres Level von Java-Entwicklungen zu unterstützen und Entwicklern die Komplexität ersparen, die bei der parallelen Programmierung von MapReduce nötig ist.

Mattmann lobt Spark als „Umgebung mit geringer Latenz“. Er und sein Team bei der NASA arbeiten mit Satelliten-Daten, um ein Klimamodell zu entwerfen. Die Analyse dient der Planung von Wasserressourcen in USA. Auch andere US-Regierungsbehörden möchten die Daten verwerten. Mattmann verweist darauf, dass man schnelle Durchlaufgeschwindigkeiten diese Datenmengen benötigt, um sich auf Dürren vorzubereiten und entsprechend Maßnahmen einzuleiten.

„Wir müssen etliche Terabyte Daten innerhalb von 24 Stunden liefern und dabei ist Spark ein Vorteil“, sagt der NASA-Mitarbeiter. „Vanilla Hadoop und MapReduce orientieren sich stark an I/O. Damit lassen sie sich zwar gut skalieren. Für Echtzeit-Analysen sind sie aber ungeeignet.“

Curt Monash, Präsident der Analysten-Firma Monash Research, bemängelt die Echtzeit-Performance von MapReduce ebenfalls, die auf Stapelverarbeitung ausgerichtet ist. Er sagt, dass Spark vielversprechend für das „Next-Generation Parallelisierungs-Paradigma“ ist. Die Fähigkeit, iterativ Problemen zu bearbeiten, mache Spark zu einem Kandidaten für maschinelles Lernen.

Verarbeitung von Datenströmen

Die Verarbeitung von Datenströme und Ereignissen wurden ebenfalls als Anwendungsfälle für Spark genannt. Allerdings gibt es mit dem „Storm-on-YARN“ und ähnlichen Ansätzen bei der parallelen Datenverarbeitung bereits Konkurrenz auf diesem Gebiet. Ein langjähriger Hadoop-Mitarbeiter beschäftigt sich in einem Technologie-Startups mit Datenstom-Technologien für die Spark ungeeignet sei.

„Als CAL-Alumni (Computer Assisted Learning) denke ich, dass Spark gut ist“, sagt Phu Hoang, Mitgründer und CEO von DataTorrent. „Viele werden Spark dafür nutzen, um MapReduce zu beschleunigen. Der größte Anreiz ist es, MapReduce In-Memory auszuführen.“ Hoang beschreibt Sparks Datenverarbeitungsansatz als „Mini-Stapel“. Die Latenz von Sparks sei zwar verglichen mit MapReduce besser. Allerdings bezweifelt Hoang, dass dies in Zukunft für Big-Data-Streaming und Ereignisverarbeitung ausreichend ist.

Bei DataTorrent verfolgen Hoang und seine Kollegen eine Streaming-Strategie, die auf einer Kombination aus selbst erstellten Java-Operatoren, YARN und HDFS basieren. Zu diesem Zweck hat die Firma auf dem Hadoop Summit 2014 Anfang Juni in San Jose, eine DataTorrent Real-Time Streaming Software für Hadoop-2-Systeme veröffentlicht.

Apache Spark ist noch jung. Dennoch hat die Software bereits viele Anhänger, die sicherstellen, dass die Technologie genügend Aufmerksamkeit erhält. IBM, Intel, Yahoo! und die chinesische E-Commerce-Firma Alibaba nutzen beispielsweise die Anwendung. Die Hadoop-Provider Cloudera und MapR Technologies unterstützen Sparks ebenfalls über eine Allianzen mit Databricks, einem Startup, zu dessen Team CTO Matei Zaharia gehört. Zaharia war 2009 einer der Erfinder von Spark in Berkeley. Databricks ist eine ähnliche Allianz mit DataStax eingegangen. Die Firma bietet eine kommerzielle Version von Cassandra an.

Die Welt der Big-Data-Architekturen wird durch die Entstehung neuer Software alles andere als einfacher. Mit Spark 1.0 wird man in den nächsten Wochen und Monaten Aufmerksamkeit erreichen. Im Laufe der Zeit kristallisieren sich die Vor- und Nachteile heraus.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Juli 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close