Big-Data-Management mit dem Hadoop-Framework in Amazon Elastic MapReduce (EMR)

Amazon Elastic MapReduce bietet ein Hadoop-Framework, das die Verarbeitung und Verteilung großer Datenmengen über Amazon EC2 Instances ermöglicht.

Amazon Elastic MapReduce (EMR) bietet Anwendern einen Zugriff auf eine Cloud-basierte Hadoop-Implementierung für die Analyse und Verarbeitung großer Datenmengen. Aufbauend auf den Cloud-Services von Amazon, verwendet EMR Amazon Elastic Compute Cloud (EC2) und Simple Storage Service (S3), so dass Anwender ein Hadoop-Cluster schnell bereitstellen können.

Die Cloud-Elastizität von Amazon und deren Setup-Tools bieten Anwendern außerdem die Möglichkeit, Hadoop-Cluster zu skalieren, um kurzfristig eine erhöhte Rechenkapazität zu erreichen.

Amazon EMR erlaubt es Nutzern, sich auf das Design ihres Workflows zu konzentrieren, ohne sich mit den Einzelheiten der Hadoop-Konfiguration beschäftigen zu müssen. Wie bei allen Amazon Web Services (AWS) bezahlen Anwender nur für das, was sie nutzen.

Amazon Elastic MapReduce Features

Die aktuelle Version von Amazon EMR (4.6) bündelt mehrere Open-Source-Anwendungen, eine Reihe von Komponenten für Benutzer, um Cluster-Ressourcen zu überwachen und zu verwalten, und Komponenten, die eine Cluster- und Anwendungs-Interoperabilität mit anderen Services ermöglichen.

Folgende Open-Source-Anwendungen werden von Amazon in EMR gebündelt:

Amazon Elastic MapReduce bietet Anwendern außerdem die Möglichkeit, statt Apache Hadoop die Hadoop-Distribution von MapR einzusetzen.

Der EMR Webservice unterstützt verschiedene Dateisysteme für die Datenverarbeitung. Zu diesen gehören unter anderem Hadoop Distributed File System (HDFS) für lokale sowie Remote-Dateisysteme und S3 Buckets, die EMR File System sowie andere Amazon Datenservices verwenden. Amazon EMR integriert mehrere Datenservices, inklusive Amazon DynamoDB (NoSQL-Datenbank); Amazon Relational Dabase Service; Amazon Glacier; Amazon Redshift (Data-Warehouse-Service); und AWS Data Pipeline (Service für das Verschieben von Daten zwischen Amazon Services).

Zu den weiteren Features von Amazon Elastic MapReduce zählen:

Bereitstellung eines EMR Clusters: Die EMR Management Console hilft Nutzern dabei, sich durch das Erstellen und Konfigurieren einer EMR Instance zu navigieren. Über die Console wählen Benutzer die benötigte Anwendung aus dem EMR Bundle, die Arten der Serverinstanzen für die Cluster-Knoten sowie die Zugriffsrichtlinien und Kontrollen für das Cluster aus.

Laden der Daten auf den Cluster: Benutzer mit einem typischen Bedarf an Speichergröße können ihre Daten auf einen Amazon S3 Bucket übertragen, so dass sie für die Verarbeitung auf dem Cluster zur Verfügung stehen. Anwender, die Datenvolumen im Petabyte-Bereich verarbeiten möchten, sollten sich entweder für AWS Snowball oder AWS Direct Connect entscheiden. AWS Snowball ist eine Appliance, die direkt zum Nutzer geschickt wird, um die Daten per physischen Datenträgern zu übertragen. AWS Direct Connect ist demgegenüber eine direkte Datenverbindung zwischen AWS und dem Data Center des Kunden.

Überwachung und Verwaltung: Amazon EMR sammelt Metriken, die verwendet werden, um Fortschritte bei der Verarbeitung und die Funktionsfähigkeit eines Clusters zu messen. Der Zugriff auf diese Metriken ist entweder über Kommandozeile, per Software Development Kit (SDK), API oder die EMR Management Console möglich. Zusätzlich kann Amazon CloudWatch zusammen mit Apache Ganglia genutzt werden, um den Cluster zu überwachen. Hierbei lassen sich Alarmmeldungen konfigurieren, die durch ein bestimmtes die Metriken betreffendes Ereignis ausgelöst werden.

Mehr zum Thema Big-Data-Management mit Hadoop:

Big-Data-Management mit der Hadoop-Distribution von Hortonworks.

Big-Data-Management mit der Hadoop-Distribution von MapR.

Big-Data-Management und Analytics mit IBM BigInsights und Apache Hadoop.

Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.

Preise für Amazon Elastic MapReduce

Das Preismodell für Amazon EMR gestaltet sich ähnlich wie andere AWS-Preise. Benutzer zahlen für die benötigte Zeit und die Art der genutzten Instances. Spot Instances lassen sich ebenfalls für einige oder alle Knoten eines Clusters verwenden, so dass Anwender die nötige Flexibilität erhalten, um Rechenressourcen dynamisch an ihre Bedürfnisse anzupassen. Eine detaillierte Preisübersicht finden Sie auf der Website von Amazon EMR.

Amazon bietet Entwicklern außerdem eine breite Palette von Dokumentationen, Anleitungen, Tutorials und Beispielcode.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im Juni 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close