Welchen Mehrwert die Integration zwischen SAP HANA und Apache Spark bringt

SAP will enger mit Open-Source-Entwicklern zusammenarbeiten und plant dazu auch die Integration der HANA-Plattform mit dem Apache-Spark-Framework.

SAP und Databricks, ein Plattformanbieter für Big Data aus Kalifornien, haben Anfang Juli 2014 eine Kooperation über die Veröffentlichung einer Open-Source-Distribution auf Basis von Apache Spark 1.0 getroffen, die in SAP HANA integriert ist. Spark ist ein Projekt der Apache Software Foundation und basiert auf einem In-Memory-Modell. Es gilt als effiziente Alternative zum Hadoop-Toolset von Apache für das Datenmanagement. Bei Spark werden Daten in der Regel im Arbeitsspeicher bearbeitet, gleichzeitig ist auch eine disk-basierte Informationsverarbeitung möglich. Das Spark-Framework wurde entwickelt, um interaktive Analysen in einer Hadoop-File-System-Installation (HDFS) einfacher und schneller ausführen zu können. Dies war bisher ein wunder Punkt im Hadoop-Ökosystem.

Den Angaben von SAP zufolge wird die Integration zwischen der In-Memory-Plattform und der Spark-Distribution von Databricks mit dem Toolset Smart Data Access (SDA) von SAP HANA realisiert, einer Technologie zur Datenvirtualisierung. Die SDA-Technologie ermöglicht dynamische Datenabfragen aus heterogenen relationalen und nicht-relationalen Datenbanksystemen. Sie wird bereits für die Einbindung von Apache Hadoop-Hive-Datenbanken eingesetzt.

HANA und Apache Spark: SAP bleibt Antworten schuldig

Apache Spark unterstützt wiederum die Hive Query Language (HQL), eine SQL-Variante. Dafür stellt das Framework die Komponente Shark, die als ein riesiges Data-Warehouse-System bezeichnet werden kann, bereit sowie Spark SQL für die Abfragen. SAP will die Integration offensichtlich über eine Schnittstelle ausführen, die die eigene Spark-Distribution beinhaltet und auf Spark SQL aufsetzt. Auf diese Weise kann via Spark mit der In-Memory-Plattform SAP HANA direkt auf Apache Hive zugegriffen werden. Allerdings teilt SAP zurzeit nicht mit, welches Integrationsszenario darüber hinaus angeboten werden soll. Wird nämlich „nur“ eine Hive-Integration angeboten, kann dies kaum als wirkliche „Spark-Integration“ bezeichnet werden. Der Softwarekonzern aus Walldorf bleibt demnach noch viele Antworten über die exakten Zugriffsszenarien für SAP HANA schuldig, die später tatsächlich durch seine Spark-Distribution unterstützt werden sollen.

Zu diesem Thema liefert ein Blog von Databricks bereits mehr und vor allem genauere Informationen. Laut Databricks soll Spark den Pushdown von SQL-Operatoren in die In-Memory-Plattform unterstützen. Dieses Vorhaben ist bisher allerdings noch nicht umgesetzt. Doch künftig dürfte es möglich sein, Abfragen und Analysen mit Hilfe von Spark direkt auf SAP-HANA-Daten auszuführen. Dabei könnten bestimmte Filter- und Aggregationsaufgaben bei Bedarf auch an HANA weitergegeben werden. Dafür muss SAP HANA allerdings als Datenquelle für Spark SQL fungieren. Zu diesem Szenario fließen Informationen bisher jedoch nur spärlich. Der größte Nutzen der Ankündigung einer Integration der Spark-Distribution von Databricks mit SAP HANA liegt zurzeit noch darin, dass sich die Spark- und die HANA-Welt näher kennenlernen. Beide Systeme haben enorme Stärken, deren Verknüpfung Unternehmen durchaus einen Mehrwert liefern kann.

Über den Autor:

Ethan Jewett ist ein unabhängiger Berater und SAP-Mentor. Seine Arbeitsschwerpunkte liegen in den Bereichen Business Intelligence, Information Management und Performance Management. Er entwickelt zudem gemeinsam mit Kunden IT-Tools für das Datenmanagement und Performance Management. Weitere Informationen gibt es auf seinem Blog.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im September 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close