Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Big Data mit Amazon Elastic MapReduce, Hadoop und Hive analysieren

Mit Amazon Elastic MapReduce, Hadoop und Hive können Sie effizient große Datenmengen analysieren. Wir zeigen Schritt für Schritt die Einrichtung.

Amazon Elastic MapReduce (EMR) ist ein nützliches Werkzeug für die Entwicklung von Anwendungen, einschließlich Log-, Finanz-, Marketing-Analysen und Bioinformatik. Die Technologie nutzt Hadoop, ein Open-Source-Framework, um Daten über einen Cluster von Amazon EC2-Instanzen zu verteilen.

Der beste Weg um Big Data zu analysieren, ist Apache Hive, ein Open-Source-Data-Warehouse- und Analyse-Paket, welches auf Basis von Hadoop ausgeführt werden kann. Hive-Skripte verwenden eine SQL-ähnliche Sprache namens Hive QL. Mit dieser Sprache lässt sich das komplexe entwickeln von MapReduce-Programmen in Java vermeiden.

Das folgende Beispiel für die Erstellung eines Hive-Cluster auf Basis von Amazon EMR verwendet Contextual Advertising mit Apache Hive. Dieses Beispiel zeigt, wie Sie Kundendaten mit bestimmten Anzeigen korrelieren.

Öffnen Sie zunächst die Amazon Elastic MapReduce-Konsole. Klicken Sie auf Create Cluster, um mit fünf Schritten die Konfiguration einzurichten:

Schritt 1 - Konfigurieren eines Clusters

  • In das Feld Cluster name geben Sie einen aussagekräftigen Namen ein. Der Name muss nicht eindeutig sein;
  • Im Feld Termination protection ist der Standardwert  Yes. Dadurch wird sichergestellt, dass der Cluster nicht heruntergefahren wird, wenn Fehler oder andere Probleme vorliegen;
  • Der Bereich Logging ist standardmäßig aktiviert, also auf die Option Enabled gesetzt. Die Daten werden zu Amazon S3 gesendet;
  • Im Feld zur Eingabe des Verzeichnisses zur Speicherung der Protokolldateien in Amazon S3 geben Sie den Namen und einen Ordner in diesem Format ein: s3://<bucket name>/<folder>/.. ;
  • Im Feld Debugging setzen Sie die Option auf Enabled.

Der Bereich Tag ist optional. Sie können bis zu 10 Tags zu Ihren EMR-Cluster hinzufügen. Ein Tag besteht aus Schlüssel-Wert-Paaren, die case sensitive sind, also auch Groß- und Kleinschreibung berücksichtigen.

Schritt 2 - Softwarekonfiguration einrichten

  • Im Bereich Hadoop distribution lassen Sie Amazon als Standardwert;
  • In Feld AMI Version wählen Sie 2.4.2 (Hadoop 1.0.3);
  • Im Feld zum Installieren von Anwendungen wählen Sie Hive und entfernen Pig.

Schritt 3 - Einrichten der Hardwarekonfiguration

  • Im Bereich Network wählen Sie Launch into EC-2 Classic.
  • Im Feld EC2 Subnet EC2 wählen Sie No preference.
  • In den Feldern Master, Core und Tasks ist der Standard-EC2-Typ m1.small. Verwenden Sie kleine Instanzen für alle Knoten für leichte Workloads, um Ihre Kosten niedrig zu halten. Die Anzahl ist standardmäßig 1, 2, 0. Haken Sie nicht Request Spot Instances an (in allen drei Feldern).

Hinweis: Zwanzig ist die maximale Anzahl von Knoten pro AWS-Konto.  Wenn Sie zwei Cluster verwenden, wird die Gesamtzahl der Knoten für beide Cluster 20 oder weniger sein. Wenn Sie mehr als 20 Knoten benötigen, müssen Sie einen Antrag einreichen, um für Ihre Amazon EC2-Instanz mehr Knoten zu erhalten. Ohne weiteres ist eine solche Konfiguration aber nicht möglich.

Schritt 4 - Sicherheit und Zugriff einstellen

  • Im Feld EC2 key pair, wählen Sie ein Amazon EC2-Schlüsselpaar aus der Liste. Das erlaubt Ihnen Secure Shell (SSH) zu verwenden, um sich mit dem Master-Knoten zu verbinden;
  • Im Feld IAM user access wird standardmäßig die Option No other IAM users aktiviert;
  • In Feld  EC2 role box ist der Standard auf no roles found gesetzt;
  • Bei Bootstrap Actions nehmen Sie keine Änderungen vor.

Schritt 5 - Cluster-Parameter spezifizieren

  • Im Abschnitt Steps wählen Sie Hive Program aus der Liste aus und klicken danach auf Configure and add;
  • Im Feld Name ist der Standard Hive Program gesetzt;
  • Im Feld Script s3 Location  geben Sie einen Wert in Form von BucketName/path/ScriptName ein, zum Beispiel s3n://elasticmapreduce/samples/hive-ads/libs/model-build;
  • Im Feld Input S3-Location geben Sie einen Wert in Form von BucketName/path ein, zum Beispiel  s3n://elasticmapreduce/samples/hive-ads/tables. Diese Daten werden an das Hive-Skript als INPUT übergeben;
  • Im Feld Output S3 Location geben Sie einen Wert in Form von bucketname/path ein, zum Beispiel s3n://myawsbucket/hive-ads/output/2014-4-14. Dieser wird dem Hive-Skript als Parameter OUTPUT übergeben;
  • In das Feld Arguments geben Sie zum Beispiel folgendes ein - d LIBS=s3n://elasticreducemap/samples/hive-ads/libs. Das HIVE Skript benötigt zusätzliche Bibliotheken;
  • Im Feld Action on Failure klicken Sie auf  Continue. Wenn der aktuelle Schritt fehlschlägt, fahren Sie mit dem nächsten Schritt fort;
  • Wenn Sie fertig sind, klicken Sie auf Add und dann auf Create Cluster. Sie sehen die Konfiguration noch einmal als Zusammenfassung.

Wie Sie in dem Beispiel mit Content-bezogener Werbung in Apache Hive sehen, müssen Sie eine Hive-Sitzung auf einem Master-Knoten vorbereiten, bevor Sie eine Abfrage ausführen können. Erst dann können Sie Big Data analysieren.

Sie müssen Impression drücken und alle fünf Minuten die Logdateien auf Amazon S3 anfordern und überprüfen. Ein Eintrag für Impressions wird jedes Mal hinzugefügt, wenn eine Werbung für einen Kunden hinzugefügt wurde. Außerdem wird jedes Mal ein Eintrag in den Logs hinzugefügt, wenn ein Kunde eine Werbung anklickt. Sie können mit diesem Beispiel also effizient die Möglichkeiten der Anwendung in einem realistischen Umfeld testen. SQL-ähnliche Abfragen vereinfachen den Prozess der Korrelation von Kundendaten und bestimmten Werbungen, sodass Sie auch hier effizientere Werbungen schalten können.

Als Fazit bleibt festzuhalten, dass der beste Weg zur Analyse von Big Data die Zusammenarbeit von  Hive auf Hadoop ist. Verwenden Sie SQL-Abfragen um Log-Datenanalyse zu vereinfachen, wird die Analyse noch effizienter.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Juli 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close