WavebreakmediaMicro - Fotolia

Databricks und Microsoft ermöglichen Spark as a Service

Databricks und Microsoft kooperieren, um Apache Spark in der Azure-Cloud verfügbar zu machen. Damit wird Spark für neue Zielgruppen interessant.

Microsoft macht Apache Spark zu einem zentralen Angebot auf seiner Cloud-Plattform Azure ein. Dahinter steht eine Partnerschaft von Microsoft und Databricks, die eine kommerzielle Version von Spark vertreiben.

Mit der Ankündigung, die auf der Connect-Konferenz in New York gemacht wurde, stellt Azure ein Modul mit dem Namen Spark as a Service zur Verfügung. Zwar ist es bereits möglich, Spark über Azure einzusetzen und das Framework auf der Plattform einzurichten, doch dies ließ sich bisher nur über Azure HDInsight, den Hadoop-Cluster-Service von Azure, erreichen.

Azure Databricks, so der Name der Distribution, ist eine Plattform, die für Azure optimiert ist. Die Databricks Unified Analytics Platform war bisher bereits für Amazon Web Services (AWS) verfügbar und nutzte S3 als Schnittstelle.

Auf Azure werden nun Storage-Services für Azure Blob und Azure Data Lake hinzugefügt. Zudem gibt es eine Integration mit Azure SQL Data Warehouse und Cosmo DB, dem global verteilten Datenbankangebot von Microsoft. Ebenso stellt es eine native Integration von PowerBI zur Verfügung, die es erlaubt, Daten zu analysieren und zu visualisieren. Azure Active Directory regelt die Zugriffsrechte. Das Ausrollen von Databricks-Clustern erfolgt über die Azure Console.

Databricks kann spezielle Funktionen der Azure-Cloud nutzen. Dazu gehört die native Integration in die Administrationskonsole der Microsoft-Cloud. Auto-Scaling ist ebenso möglich wie das Abschalten von Clustern. Verschiedene virtueller Maschinen (VM) werden unterstützt.

Data Scientists und Data Engineers im Fokus

Databricks ist mit seiner Version von Apache Spark auf die Bedürfnisse von Unternehmen eingegangen. Den Kern bildet das Framework der Apache Foundation, doch die Databricks Runtime arbeitet schneller und die Verarbeitung von Aufträgen ist effektiver. Damit werden neue Zielgruppen für Spark und seine Fähigkeiten wie Machine Learning erschlossen.

Es ist möglich, Spark auf Notebooks zu verwenden, womit es Data Scientists und Data Engineers effektiv auf einem lokalen Rechner einsetzen können. Collaboration und Workflow Tools sind ebenfalls in der Spark-Plattform enthalten und auf Azure verfügbar.

Azure Databricks schließt zu Google und AWS auf, die ebenfalls Spark-Varianten im Angebot haben. Google bietet Dataproc, einen Service für Hadoop, Spark, Hive und Pig. Bei AWS ist es mit Elastic MapReduce (EMR) möglich, Spark-Cluster auszurollen. Allerdings handelt es sich dabei nur um relativ grobe Implementierungen. Mit Databricks on Azure bleibt Microsoft offener für eine breitere Zielgruppe von Anwendern.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Databricks und IBM: Was steckt hinter den Cloud-Versionen von Apache Spark?

Apache Spark eröffnet neue Möglichkeiten für die Genomforschung.

E-Handbook: Datenanalyse und Daten-Management mit Apache Spark.

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Datenvisualisierung

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close