Hype versus Realität: Was kann Apache Spark wirklich leisten?

Apache Spark soll Stapelverarbeitungsprozesse bis zu 100-mal schneller ausführen als MapReduce. Ist der Hype um Apache Spark daher gerechtfertigt?

Apache Spark ist eine Open-Source-Datenverarbeitungs-Engine, die im Jahr 2010 im Labor der University of California...

in Berkeley entstand. Das Projekt wird seit 2013 von der Apache Software Foundation weiterentwickelt und ist dort als Top-Level-Projekt eingestuft.

In den vergangenen Jahren ist Apache Spark auf große Resonanz gestoßen. Die Apache Software Foundation veröffentlichte im Mai 2014 Version 1.0 von Spark, seit Anfang Januar 2016 ist Release 1.6 veröffentlicht. Die Anbieter preisen Spark als eine schnellere und flexiblere Alternative zu MapReduce an, um Hadoop-Daten flotter zu verarbeiten und zu analysieren. Ist der Hype um Spark aber gerechtfertigt? Hier eine Gegenüberstellung von Hype und Realität:

Der Hype: Spark behebt einige Mängel von MapReduce, dem Software-Framework, auf das frühere Hadoop-Versionen festgelegt waren. Im Herzen von Spark befindet sich ein In-Memory-Computing-Layer, von dem Spark-Anhänger sagen, er könne Stapelverarbeitungsprozesse bis zu 100-mal schneller ausführen als MapReduce.

Spark hat zudem den Ruf einer Allzweckwaffe, die außer für Batch-Jobs auch für maschinelles Lernen, Streaming, Graph-Verarbeitung und SQL-Abfragen geeignet ist. Außerdem verwendet Spark High-Level-APIs und Bibliotheken, so dass sich die Anwendungsentwicklung einfacher gestaltet, als dies mit dem komplexen MapReduce möglich ist.

Die Realität: Bisher hat Spark allerdings weit mehr mit dem Hype der Anbieter als der Akzeptanz der Benutzer Schlagzeilen gemacht. Und das hat viel zu mit seiner Reife zu tun. So sind zum Beispiel Werkzeuge, die Spark mit SQL verbinden, sehr neu. Auch können sich die In-Memory-Fähigkeiten von Spark als recht teuer für einige Anwendungen erweisen. Und während seine APIs tatsächlich weniger komplex sind als die von MapReduce, liegen sie jenseits des aktuellen Know-hows der meisten Unternehmensentwickler.

Fazit: Spark kann tatsächlich abheben. Es ist aber auch immer noch möglich, dass die Spark-Flamme ziemlich schnell wieder ausgeht – statt hell zu leuchten.

Mehr zum Thema Apache Spark:

Apache Spark erweitert die Möglichkeiten von Hadoop.

Built-In Bibliotheken machen aus Apache Spark ein mächtiges Analytics-Tool.

Das Big-Data-Framework Apache Spark beschleunigt Analytics.

Databricks und IBM: Was steckt hinter den Cloud-Versionen von Apache Spark?

Welchen Mehrwert die Integration zwischen SAP HANA und Apache Spark bringt.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Februar 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close