Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Hadoop-Integration von SAP: Diese Möglichkeiten bietet das Softwarehaus an

Viele Versprechen haben dazu geführt, dass es zu Verwirrungen rund um die Hadoop-Integration von SAP kam. Ein Überblick der Integrationsoptionen.

Hadoop ist derzeit sehr beliebt. Doch was genau ist es? Es ist keine spezielle Software, sondern ein Projekt unter...

Schirmherrschaft der Apache Software Foundation (ASF), das mehrere Kern-Tools für die Datenverarbeitung auf Großrechner-Clustern beinhaltet. 

Es gibt daneben ein Ökosystem zugehöriger Tools und mehrere Hadoop-Distributionen von Unternehmen wie Cloudera, Hortonworks, IBM, Intel and MapR. Jede dieser Distributionen bietet eine Kombination aus Kern- und Ökosystem-Tools sowie (häufig) proprietäre Komponenten, die die Distributoren als besser erachten.

Allerdings gibt es nicht das eine Tool, das Hadoop heißt. Es ist ratsam, vorsichtig zu reagieren, wenn Anbieter behaupten, sie bieten eine Hadoop-Integration an. Der Anbieter kann eventuell nur ein einzelnes Tool integrieren. Die Hadoop-Integration von SAP stiftet ähnlich viel Verwirrung wie die anderen Anbieter. Wir werfen daher ein Blick darauf, wie sich Hadoop-Tools mit SAP-Anwendungen integrieren lassen.

Was ist Hadoop?

Als erstes definieren wir Hadoop noch einmal. Wie beschrieben, enthält Hadoop mehrere Kern-Tools:

  • Hadoop Distributed File System (HDFS) ist ein verteiltes Dateisystem, das auf einem Cluster von Computern arbeiten kann, um große Datenmengen zu speichern. Andere Hadoop-Tools werden in der Regel so konfiguriert, dass sie die auf HDFS gespeicherte Daten nutzen.
  • Yet Another Resource Negotiator (YARN) ist das Kern-Cluster-Ressourcen-Management-Framework. Die meisten – aber nicht alle – Hadoop Ökosystem-Tools laufen auf einem YARN-Cluster.
  • MapReduceist ein System für die parallele Verarbeitung von großen Datensätzen, das auf einem Google Forschungsbericht aus dem Jahr 2004 basiert. MapReduce war das ursprüngliche Hadoop. Interessanterweise verwenden nur ein paar Anbieter, die Hadoop-Integration bieten, direkt MapReduce.

Hadoop hat daneben ein riesiges Ökosystem an Tools, die rund um oder auf diesen Kern-Tools aufbauen. Einige Ökosystem-Projekte werden ebenfalls von der ASF gehostet. Andere haben ihren Ursprung an anderer Stelle. Das sind die Kernprojekte, die von der ASP gehostet werden:

  • Hive wurde ursprünglich als Hadoop Data Warehouse angekündigt, ist derzeit aber eher eine verteilte Datenbank mit einer Data Definition und einer Query Language (HQL), die Standard-SQL ähnelt. Hive-Tabellen lassen sich vollständig mit Hive verwalten oder können als „externe“ Tabellen auf den Dateien von HDFS, HBase und vielen anderen Datenquellen definiert werden. Auf diese Weise bildet Hive häufig einen Zugang zu den Daten, die in den Hadoop Ökosystem-Tools gespeichert sind.
  • Pig ist eine Programmiersprache und Ausführungsplattform zum Erstellen von Datenanalyse-Anwendungen.
  • HBaseist eine parallele Datenbank für kurze Abfragen, die ursprünglich auf Basis der BigTable von Google modelliert wurde.
  • Weitere Projekte sind Apache Spark (ein In-Memory-Computing- und Streaming-Framework), Shark (Hive on Spark), Mahout (eine Analytics-Algorithmen-Bibliothek), ZooKeeper (ein zentraler Service für die Wartung von Informationen für Konfigurationen und andere Faktoren) und Cassandra (ähnlich wie HBase).

Dieses Diagramm illustriert, welche SAP-Programme mit welchen Hadoop-Tools verbunden sind. Allerdings zeigt das Diagramm nur den Pfad des Datenzugriffs und repräsentiert nicht die technische Architektur jedes Tools

Hadoop-Integration in SAP-Systeme meist nur Apache Hive

Wie lässt sich Hadoop nun mit SAP-Produkten integrieren? Die Integration ist mit mehreren Produkten möglich. Im Moment bietet SAP die Hadoop-Integration mit SAP HANA (sowie mit Apache Spark), Sybase IQ, SAP Data Services und SAP BusinessObjects Business Intelligence (BI) an. Jede dieser Anwendung integriert Hadoop unterschiedlich.

SAP HANA und Sybase IQ unterstützen beide das Weiterleiten von Anfragen und andere Transaktionen zu einem Remote Apache-Hive-System, als wären die Hive-Tabellen lokale Tabellen. In Sybase IQ wird diese Einstellung als Remote-Datenbank bezeichnet. In HANA lässt es sich über die Smart Data Access-Funktion konfigurieren. 

Sybase IQ unterstützt außerdem eine benutzerdefinierte Funktion, die MapReduce API heißt, um Daten auf dem Datenbank-Server zu verarbeiten. Auch wenn SAP diese API unter dem Hadoop-Label bewirbt, ist es kein Hadoop.

SAP BusinessObjects BI unterstützt den Zugang zu Apache Hive-Schemas über das Universe-Konzept, genauso wie es sich auch mit anderen Datenbanken verbinden lässt. Dabei ist es erwähnenswert, dass diese Verbindungsart theoretisch einen Datenzugriff auf viele verschiedene Storage-Systeme über das externe Tabellen-Konzept von Hive erlaubt, einschließlich HBase, Cassandra und MongoDB.

Bisher wurde aber deutlich, dass die Hadoop-Integration von SAP lediglich eine Hive-Integration ist. Die Integration von Hive über HQL ist großartig und eigentlich auch das, was die meisten Anbieter meinen, wenn sie von Hadoop-Integration sprechen. Doch es unterscheidet sich deutlich von dem Bild, dass die Anbieter von der tiefgreifenen Integration der vielfältigen Hadoop-Tools vermitteln.

SAP Data Services versprechen Hadoop-Integration

Die aktuelle Hadoop-Integration der SAP Data Services ist tatsächlich vielversprechend. Neben der Fähigkeit, Daten in und von Hive zu laden, können die Data Services HDFS-Dateien erstellen und lesen. Auf diese Weise können sie einige Transaktionen durch die Verwendung von Pig-Skripten ausführen. 

Das bedeutet, dass die Daten zusammengefügt und direkt in den Hadoop-Cluster gefiltert werden können, anstatt sie zu den Data-Services-Server leiten zu müssen, um sie zu verarbeiten. 

Die Data Services sind in der Lage, Textdatenverarbeitungen auf einen Hadoop-Cluster ähnlich wie MapReduce-Aufgaben zu laden. An dieser Stelle ist auch die Behauptung von SAP gerechtfertigt, eine tiefe Integration von Hadoop-Tools zu bieten.

Schließlich noch eine Warnung: Das Hadoop-Ökosystem verändert sich schnell und Enterprise-Software hinkt Hadoop meist weit hinterher. Laut der Produktverfügbarkeitsmatrix von SAP ist die Unterstützung für Hive, Pig und HDFS auf ältere Versionen begrenzt, die die neuesten Performance-Entwicklungen, Hochverfügbarkeit und Cluster-Belastbarkeit noch nicht unterstützen. 

Man sollte daher den Anbieter genau darauf prüfen, ob er eine Version eines speziellen Hadoop-Tools unterstützt. Die Hadoop-Versionierung ist leider verwirrend, so dass man dies mehrfach prüfen sollte.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Oktober 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close