MapReduce versus Spark: Wer macht das Rennen in der Cloud?

MapReduce und Apache Spark sind zwei Optionen für die Verarbeitung von Big Data in der Cloud. Doch was sind die Unterschiede zwischen den Frameworks?

Für viele Unternehmen entscheidet die Fähigkeit, große Datenmengen verwalten, speichern und verarbeiten zu können,...

über Erfolg oder Misserfolg. Wenn es um die Verarbeitung von Big Data in der Cloud geht, haben Anwender die Wahl zwischen zwei beliebten Optionen: MapReduce oder Apache Spark. Beides sind verteilte Verabeitungssysteme, die gut mit großen Datenmengen arbeiten können – vor allem, wenn die Daten nicht ohne weiteres auf einen Server passen.

Bevor wir einen Blick darauf werfen, welche Optionen es gibt, die beiden Big-Data-Frameworks in der Public Cloud zu nutzen, schauen wir uns die Unterschiede zwischen MapReduce und Apache Spark näher an.

MapReduce war das erste Open-Source-Framework, das mit Hadoop veröffentlicht wurde, um großen Datenmengen zu verarbeiten. Wie der Name schon vermuten lässt, basiert MapReduce auf den funktionalen Programmierkonzepten Mapping und Reducing, also Abbildung und Reduzierung.

Ein Map-Prozess wendet eine Funktion auf ein Argument an und gibt das Ergebnis in Form eines Schlüssel-Wert-Paares aus. Ein beliebtes Beispiel ist das Zählen der Wörter in einem Buch. Für jedes Auftreten eines Wortes in einem Buch nimmt eine Map-Funktion, auch Mapper genannt, ein Wort als Eingabe und gibt ein Schlüssel-Wert-Paar aus, das aus dem Wort (Schlüssel) und einer Zahl (Wert) besteht. Der Reducer sammelt alle Schlüssel-Wert-Paare mit dem gleichen Schlüssel – in diesem Fall das gleiche Wort – und summiert die Werte.

MapReduce funktioniert gut für Stapelverarbeitungsprozesse. Das MapReduce-Framework speichert die Ergebnisse im persistenten Speicher auf den Knoten im Cluster, so dass das hohe Level von I/0 zu Latenzen führen kann. Daher ist MapReduce eine gute Wahl für große Datenmengen, die in Stapeln (Batches) verarbeitet werden sollen.

Apache Spark ist eine verteilte Open Source Computing-Plattform. Spark läuft auf Hadoop sowie Apache Mesos und kann mit dem eigenen Cluster-Manager verwendet werden. Das Framework funktioniert ähnlich wie MapReduce, hält aber die Daten im Arbeitsspeicher (In-Memory), anstatt die Zwischenergebnisse auf eine Festplatte zu schreiben. Aus diesem Grund können Spark-Anwendungen Verarbeitungsprozesse deutlich schneller ausführen als MapReduce, was mehr Flexibilität bietet.

Wenn Sie evaluieren, ob MapReduce oder Spark die richtige Option für Sie ist, sollten Sie die Möglichkeit erwägen, beide Frameworks in der Public Cloud zu verwenden. Zum Beispiel unterstützt AWS Elastic MapReduce (EMR) auch Spark. MapReduce ist in der Basis-Hadoop-Installation von EMR enthalten. Microsoft Azure bietet ebenfalls MapReduce und Spark innerhalb der HDInsight-Services an. Schließlich enthält Google Dataproc, aktuell noch in der Beta-Phase, einen Managed Service für MapReduce und Spark.

Mehr zum Thema Apache Spark:

Kostenloses E-Handbook: Datenanalyse und Daten-Management mit Apache Spark.

Spark versus MapReduce: Welchen Weg soll die Enterprise-IT gehen?

Hype versus Realität: Was kann Apache Spark wirklich leisten?

Ist Apache Spark die Antwort für Cloud- und Big-Data-Anwendungen?

Apache Spark beschleunigt die Big-Data-Entscheidungsfindung.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im März 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close