Definition

Apache Hive

Mitarbeiter: Delaney Rebernik

Apache Hive ist ein Open-Source Data Warehouse-System für Abfragen und Analysen großer, in Hadoop gespeicherter Datensets. Hadoop ist ein Framework für die Verarbeitung von Datensets in verteilten Rechenumgebungen.

Hive hat drei Hauptfunktionen: Datenzusammenfassung, -abfragen und -analysen. Es unterstützt Abfragen, die in der Sprache HiveQL verfasst wurden. Diese übersetzt SQL-artigen Abfragen automatisch in MapReduce-Jobs, die in Hadoop ausgeführt werden. Zusätzlich unterstützt HiveQL in Abfragen das Einbetten individueller MapReduce-Skripte. Hive ermöglicht zudem eine Serialisierung/Deserialisierung von Daten und erhöht die Flexibilität beim Entwurf von Schemata, indem es einen Systemkatalog – den Hive-Metastore – zur Verfügung stellt.

Laut der Apache Hive-Wiki wurde "Hive nicht für OLTP-Workloads ausgelegt und bietet keine Echtzeit-Abfragen oder -Updates auf Zeilenebene. Es lässt sich am besten für Batch-Jobs mit großen Sets nur aufzunehmender Daten (wie zum Beispiel Web-Logs) verwenden."

Hive unterstützt Textdateien (auch Flat-Files genannt), SequenceFiles (Flat-Files, die aus binären Schlüssel/Wertepaaren bestehen) und RCFiles (Record Columnar Files, welche die Spalten einer Tabelle in der Art einer spaltenbasierten Datenbank speichern).

Diese Definition wurde zuletzt im November 2012 aktualisiert

Erfahren Sie mehr über Hadoop

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close