Big-Data-Management mit der Hadoop-Distribution von MapR

MapR Hadoop ersetzt HDFS durch das proprietäre Dateisystem MapR-FS, das für ein besseres Daten-Management und höhere Zuverlässigkeit entworfen wurde.

Die MapR Converged Data Platform unterstützt die Big-Data-Verarbeitung über Apache Hadoop sowie eigene MapR-Tools. Die Komponenten von MapR Technologies bieten mehrere Enterprise-Werkzeuge, um Daten besser auf Hadoop-Clustern verwalten zu können und deren Zuverlässigkeit zu gewährleisten.

Zu diesen Komponenten gehören MapR File System (MapR-FS), MapReduce und die Benutzeroberfläche MapR Control System. Die MapR Hadoop-Distribution umfasst eine vollständige Implementierung der Hadoop APIs, was die Kompatibilität mit dem Hadoop-Ökosystem gewährleistet.

MapR-FS ist in C++ geschrieben, wogegen das Apache Hadoop Distributed File System (HDFS) in Java programmiert wurde. MapR-FS dient als proprietäre Implementierung von HDFS. Im Gegensatz zu HDFS, welches das Write-Once-Read-Many-Paradigma (WORM) verfolgt, ist MapR-FS ein vollständig Read/Write POSIX-kompatibles (Portable Operating System Interface) Dateisystem.

Aufgrund der Unterstützung des Industriestandards NFS, können Benutzer leicht einen MapR-Cluster mounten und jede beliebige dateibasierte Anwendung direkt auf Basis der Daten im Cluster ausführen. Dies ermöglicht es, Daten aus praktisch jeder Quelle zu verarbeiten. Außerdem lassen sich Standard-Tools verwenden, um direkt auf Daten auf dem Cluster zuzugreifen.

Im Gegensatz zu anderen Hadoop-Distributionen kann MapR verteilte Dateien, Datenbanktabellen und Event Streams im selben Cluster-Knoten verarbeiten. Auf diese Weise können Unternehmen operative Werkzeuge wie Apache HBase und Analytics Tools wie Hive oder Impala auf einem Cluster ausführen, was die Hardware- und Betriebskosten reduziert.

Die neueste Version von MapR (5.1) enthält MapR Streams, ein Event-Streaming-System für Big Data. Die Plattform ist so konzipiert, dass sie hochskalierbares Big-Data-Echtzeit-Streaming von Datenproduzenten wie auch -konsumenten auf der konvergenten Plattformen unterstützt. MapR wirbt damit, das einzige Big-Data-Streaming-System zu sein, welches eine globale Event-Replikation für das Internet der Dinge unterstützt.

Zu den weiteren Merkmalen der Converged Data Platform von MapR zählen:

  • MapR Snapshots bieten eine bessere Datensicherheit, indem sie Point-in-Time Snapshots sowohl für Dateien und Tabellen On-Demand als auch in regelmäßigen Abständen erlauben.
  • Die Plattform ermöglicht die Verschlüsselung der Daten, die zu, von und innerhalb eines Clusters übertragen werden. Zudem bietet sie starke Autorisierungsmechanismen, welche die Datensicherheit erhöhen und gleichzeitig Administratoren eine bessere Kontrolle darüber geben, welche Aktionen einzelne Nutzer ausführen dürfen.
  • Die Converged Data Platform stellt schließlich fertig zusammengestellte, einfach zu konfigurierende Spiegelungs- und Disaster-Recovery-Funktionen zur Verfügung.

MapR Hadoop Versionen

MapR bietet die kostenlose Converged Community Edition und die Converged Enterprise Edition an. Letztere ist eine subskriptionsbasierte Version, die sich an Organisationen mit Business-Continuity-Anforderungen richtet. Zu den Funktionen der Enterprise Edition zählen erweiterte Multi-Tenancy-Fähigkeiten, konsistente Snapshots, Hochverfügbarkeit und Disaster-Recovery-Feature sowie 24/7-Support beziehunsweise Support für andere Module und Engines.

Die MapR Hadoop-Distribution bietet verschiedene Trainingsoptionen, darunter kostenlose Online-Trainings sowie freie, von Experten geführte Schulungen und Zertifizierungen. Die Versionen lassen sich herunterladen und auf einem lokalen Server mit einem GUI-Installer installieren. Die Community Edition ist kostenlos, die Enterprise Edition kann 30 Tage kostenlos getestet werden.

Mehr zum Thema Apache Hadoop:

CeBIT 2016: Kontextanalyse mit SAP HANA Vora und Hadoop allgemein verfügbar.

Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.

SAP HANA Hadoop Erweiterung: Ein großer Schritt in Richtung Internet der Dinge.

Hadoop-Cluster bieten Spreadmarts und Analytics eines neues Zuhause.

Hadoop 2 bietet für Big-Data-Umgebungen eine bessere Analytics-Verarbeitung.

MapR Sandbox enthält eine geschlossene virtuelle Maschine. Das Angebot umfasst Tutorials und Demo-Anwendungen, die es Anwendern ermöglichen, direkt mit Hadoop und Spark zu arbeiten. Eine Cloud-Version von MapR gibt Anwendern die Möglichkeit an die Hand, Hadoop als Service in einer Cloud-Umgebung zu betreiben und anzubieten. Zu den unterstützten Plattformen zählen Microsoft Azure, Google Cloud Platform, Amazon Web Services (AWS) und OpenStack.

Die MapR Hadoop-Distribution bietet außerdem Quickstart-Lösungen, die vorkonfigurierte Template-Umgebungen beinhalten. Diese unterstützen Use-Case-Szenarien unter anderem für Self-Service-Datenexploration, Echtzeit-Sicherheitsprotokoll-Analysen, Zeitreihenanalysen, Genomsequenzierung, Data-Warehouse-Optimierung und -Analytics sowie eine Empfehlungs-Engine.

MapR läuft auf verschiedenen Linux-Versionen, wie zum Beispiel Red Hat, CentOS, SUSE und Ubuntu. Der Betrieb der Hadoop-Distribution setzt einen 64-Bit CPU und mindestens vier GB Arbeitsspeicher voraus. In einer Produktionsumgebung wird zusätzlicher RAM benötigt.

Lizenzierung und Support für MapR Hadoop

Um die MapR-Produkte nutzen zu können, müssen Anwender den AGBs und dem Endbenutzer-Lizenzvertrag (EULA) zustimmen. Während alle Benutzer Zugriff auf verschiedene Online-Ressourcen haben, bietet nur der Premium Support Web- und E-Mail-Unterstützung beziehungsweise ein Kundenportal. Der Premium Support stellt außerdem Schulungen, dringende Bug Fixes und Telefon-Support rund um die Uhr für Probleme mit der höchsten Priorität bereit.

Premium+ Support bietet darüber hinaus das Festlegen von Prioritäten für Tickets, eine zentrale Anlaufstelle für den Support und Optionen für den Vor-Ort- oder Remote-Support. Um die Preise der Support-Pakete zu erfahren, sollten Interessenten mit MapR in Kontakt treten.

Über den Autor:
Abie Reifer ist Principal Analyst bei DecisionWorx und leitet den Bereich Datenerhebung und Forschung. Vorher arbeitete Reifer als CTO sowie Strategieberater bei einem internationalen Telekommunikationsunternehmen.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Mai 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close