Definition

Apache Spark

Diese Definition ist Teil unseres Essential Guides: Big Data: Anwendung, Datenschutz und Technologie

Apache Spark kann Daten aus einer Vielzahl von Datenquellen verarbeiten, unter andem aus dem Hadoop Distributed File System (HDFS), NoSQL-Datenbanken und relationalen Datenspeichern wie Apache Hive. Spark unterstützt In-Memory-Datenverarbeitung, aber auch traditionelle Disk-basierte Verarbeitung von Daten, wenn die Datenmengen zu groß sind, um sie im verfügbaren Systemspeicher zu verarbeiten.

Im Februar 2014 wurde Spark zum Top-Level-Projekt der Apache Software Foundation ernannt. Version 1.0 von Apache Spark wurde im Mai 2014 veröffentlicht. Entwickelt wurde die Technologie ursprünglich 2009 von Forschern an der Universität Berkeley, um die Verarbeitung in Hadoop-Systemen zu beschleunigen. Spark liefert Programmierern eine schnellere und flexiblere Alternative zu MapReduce, dem Software-Framework, auf das frühere Hadoop-Versionen festgelegt waren. Nach Angaben der Entwickler von Spark kann die Technologie Jobs im In-Memory-Modus 100-mal schneller und auf Festplatte zehnmal schneller verarbeiten als MapReduce.

Hinzu kommt, dass Spark mehr als die Batch-Verarbeitungs-Anwendungen beherrscht, auf die MapReduce beschränkt ist. Im Kern fungiert die Spark Engine teilweise als Application-Programming-Interface (API) -Schicht und unterstützt eine Reihe von Tools für die Verwaltung und Analyse von Daten, wie etwa eine SQL-Abfrage-Engine, eine Library von maschinellen Lernalgorithmen sowie ein System zur Verarbeitung von Grafiken und eine Software für die Verarbeitung von Streaming-Daten.

Apache Spark läuft in Hadoop-2-Clustern auf Basis des YARN Resource Managers. Es kann ebenso als Stand-Alone-Lösung eingesetzt werden wie als Amazon Elastic Compute Cloud (EC2) Service. Seine Geschwindigkeit in Kombination mit der Fähigkeit, zahlreiche unterschiedliche Datenbanktypen zu verbinden und verschiedene Arten von analytischen Anwendungen auszuführen, haben dazu geführt, dass Befürworter der Technologie Spark das Potenzial zuschreiben, eine vereinheitlichende Technologie für Big-Data-Anwendungen zu werden.

Diese Definition wurde zuletzt im Februar 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close