Definition

Apache Hive

Diese Definition ist Teil unseres Essential Guides: Using big data and Hadoop 2: New version enables new applications
Mitarbeiter: Delaney Rebernik

Apache Hive ist ein Open-Source Data Warehouse-System für Abfragen und Analysen großer, in Hadoop gespeicherter Datensets. Hadoop ist ein Framework für die Verarbeitung von Datensets in verteilten Rechenumgebungen.

Hive hat drei Hauptfunktionen: Datenzusammenfassung, -abfragen und -analysen. Es unterstützt Abfragen, die in der Sprache HiveQL verfasst wurden. Diese übersetzt SQL-artigen Abfragen automatisch in MapReduce-Jobs, die in Hadoop ausgeführt werden. Zusätzlich unterstützt HiveQL in Abfragen das Einbetten individueller MapReduce-Skripte. Hive ermöglicht zudem eine Serialisierung/Deserialisierung von Daten und erhöht die Flexibilität beim Entwurf von Schemata, indem es einen Systemkatalog – den Hive-Metastore – zur Verfügung stellt.

Laut der Apache Hive-Wiki wurde "Hive nicht für OLTP-Workloads ausgelegt und bietet keine Echtzeit-Abfragen oder -Updates auf Zeilenebene. Es lässt sich am besten für Batch-Jobs mit großen Sets nur aufzunehmender Daten (wie zum Beispiel Web-Logs) verwenden."

Hive unterstützt Textdateien (auch Flat-Files genannt), SequenceFiles (Flat-Files, die aus binären Schlüssel/Wertepaaren bestehen) und RCFiles (Record Columnar Files, welche die Spalten einer Tabelle in der Art einer spaltenbasierten Datenbank speichern).

Diese Definition wurde zuletzt im November 2012 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close