echiechi - Fotolia

F

Wie lassen sich allgemeine Big-Data-Probleme in AWS vermeiden?

Wenn IT-Teams Hive- und JAR-Dateien clustern, kann es zu Problemen kommen. Damit das Projekt funktioniert, sollten IT-Teams auf zwei Punkte achten.

Big-Data-Projekte können komplex sein und setzen signifikante Design- und Coding-Expertise voraus. Man sollte daher ein Big-Data-Projekt klein beginnen, Big-Data-Plattformen langsam implementieren und Schlüsselfunktionen mit einfachen Jobs testen. Sobald Entwickler die Big-Data-Tools von Amazon besser kennen, können sie größere, komplexe Jobs angehen.

Komplexe Big-Data-Projekte laufen häufig in verschiedenen Rechenressourcen-Clustern. Diese setzen native oder Drittanbieter-Tools ein, die sich schlecht integrieren lassen. Das schafft Probleme für Big-Data-Projekte.

Zwei Möglichkeiten, Big-Data-Probleme einzugrenzen

Apache Hive ist ein Open Source Data Warehouse und Analytics-Tool, das typischerweise auf Hadoop-Clustern läuft. Data Scientists verwenden Hive, um komplexe analytische Jobs abzuarbeiten, ohne EMR-Programme (Amazon Elastic MapReduce) in traditionelleren Programmiersprachen wie Java zu erstellen.

Stattdessen schreiben sie ein Script in der Hive Query Language, die SQL ähnelt, aber zusätzliche Fähigkeiten bietet und strukturierte Elementen wie JSON-Objekte und benutzerdefinierte Datentypen verarbeiten kann. Hive bietet analytische Power für Big-Data-Projekte, doch bestimmte Fehler und Big-Data-Probleme können damit trotzdem auftreten.

Zum Beispiel können ältere Hive-Versionen Fehler zurücksenden, wenn man bestimmte Funktionen einsetzt. Man sollte daher sicherstellen, dass ein IT-Team die neueste, vollständig gepatchte Version von Hive verwendet. Eine Syslog-Datei verfolgt alle Aufgaben und kann Nachrichten enthalten, die auf Syntax-Fehler im Hive Script oder andere Master-Node- beziehungsweise Cluster-Fehler hinweisen. Log-Nachrichten helfen Teams dabei, mögliche Hive-Probleme in Hadoop zu ergründen.

Hive-Aufgaben, die auf Cloud-Storage-Ressourcen zugreifen, können auch wachsende Kosten für Unternehmen verursachen. Zum Beispiel kann es kostspielig sein, den Inhalt einer Cloud-Storage-Instanz, wie zum Beispiel Amazon Simple Storage Service Buckets, aufzulisten.

Um die Kosten zu reduzieren, sollte man die Anzahl der Aufgaben reduzieren, die eine Liste erfordern, und bestehende Storage-Objekte löschen. Hive und Task Performance lassen sich verbessern, wenn ein Entwickler die Storage-Listen-Operation lokal auf dem Cluster speichert und statische Partitionen auf Storage-Inhalten ausführt.

Java Archivdatei

Eine Java Archivdatei (JAR-Datei) ist ein Format, das Entwickler verwenden, um Java-Klassen, Metadaten und Content in eine Datei zu packen. Entwickler können die ausführbaren Fähigkeiten für diese Datei verteilen oder bereitstellen.

JAR-Cluster können Big-Data-Aufgaben ausführen, allerdings können sich Fehler in JAR-Cluster einschleichen, wenn sie auf Amazon EMR laufen. In den meisten Fällen kann der JAR-Cluster Fehler produzieren, wenn man einen Hadoop-Job erzeugt oder wenn JAR und der Mapper versuchen, Daten innerhalb der Aufgabe selbst zu verarbeiten.

Da Java und JAR komplex sind, sollte man nach Fehlerdetails in der Syslog-Datei suchen. Sobald Syslog die Art des Fehlers enthüllt hat, können IT-Teams Big-Data-Probleme beheben und aktualisierte JAR-Dateien erstellen.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im März 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close