Definition

Apache Pig

Apache Pig ermöglicht Entwicklern die Ausführung von Abfrage-Routinen für die Analyse von großen, verteilten Datensätzen, ohne dass diese Low-Level-Aufgaben in MapReduce ausführen müssen. Der Ansatz ist mit der Apache Hive Data-Warehouse-Software vergleichbar, die eine SQL-ähnliche Oberfläche für Hadoop bietet und keine direkte MapReduce-Programmierung erfordert.

Die wichtigsten Bestandteile von Pig sind eine Compiler und eine Skriptsprache, die Pig Latin genannt wird. Pig Latin ist eine Datenflusssprache, die zur Parallelverarbeitung dient. Die Entwickler der Apache Software Foundation positionieren die Sprache zwischen deklarativem SQL und prozeduralem Java, das in MapReduce-Anwendungen eingesetzt wird.

Befürworter von Apache Pig verweisen zum Beispiel darauf, dass mit der Skriptsprache Data Joins einfacher zu erstellen sind als mit Java. Über die Verwendung benutzerdefinierter Funktionen können Pig-Latin-Applikationen allerdings erweitert werden, was auch spezifische Verarbeitungsaufgaben beinhaltet, die in Java, JavaScript und Python geschrieben sind.

Apache Pig wurde ursprünglich in der Forschungsabteilung von Yahoo entwickelt und erstmals 2008 vorgestellt. Pig ist dazu gedacht, alle Arten von Daten zu verarbeiten, einschließlich strukturierte und unstrukturierte Informationen sowie relationale und verschachtelte Datensätze. Dieser „allesfressende“ Ansatz war der Hauptgrund, die Umgebung nach Schweinen zu benennen. Darüber hinaus lässt sich Apache Pig mit verschiedenen Frameworks einsetzen. Zwar wird die Technologie in erster Linie mit Apache Hadoop assoziiert, dennoch kann sie auch mit anderen Anwendungen zusammenarbeiten.

Das zugrunde liegende Hadoop-Framework entstand aus hochskalierten Webanwendungen, deren Architekten andere Methoden als SQL auswählten, um extrem große Datenmengen sammeln und analysieren zu können. Hadoop hat mittlerweile viele Add-ons für die Verarbeitung von Big-Data-Anwendungen. Apache Pig ist dabei nur ein Baustein einer langen Liste von Hadoop-Technologien, die Hive, HBase, ZooKeeper und andere Tools umfasst, um die Funktionslücken des Open-Source-Frameworks zu schließen.

Diese Definition wurde zuletzt im Oktober 2015 aktualisiert

Erfahren Sie mehr über Hadoop

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

File Extensions and File Formats

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close