Definition

Apache Hadoop

Diese Definition ist Teil unseres Essential Guides: Big Data: Anwendung, Datenschutz und Technologie

Das Framework Apache Hadoop ist in Java entwickelt. Es eignet sich für rechenintensive Prozesse mit großen Datenmengen im Petabyte-Bereich auf Server-Clustern, wie sie bei Big Data anfallen. Das Framework basiert auf dem MapReduce-Algorithmus von Google und setzt sich aus den Modulen Hadoop Common, Hadoop Distributed File System (HDFS) sowie der MapReduce-Implementierung YARN zusammen.

Hadoop Common beinhaltet Java-ARchiv (JAR)-Dateien, JAR-Scripts, Sourcecode, Dokumentation, Bibliotheken und eine Schnittstelle für Remote Procedure Call (RPC). Bei HDFS handelt es sich um ein hochverfügbares, leistungsfähiges Dateisystem, um große Datenmengen zu speichern. Dateien werden in mehrere Datenblöcke aufgeteilt und redundant an mehrere Rechner verteilt. Hierdurch wird die Geschwindigkeit und Zuverlässigkeit erhöht. Die Dateiblocklänge und der Redundanzgrad lassen sich individuell festlegen. YARN stellt Klassen für Map, Reduce und Combine-Phasen bereit. Dadurch ermöglicht die MapReduce-Implementierung simultane Berechnungen riesiger Datenmengen auf Computerclustern.

Hadoop wurde im Januar 2008 zum Top-Level-Projekt der Apache Software Foundation (ASF) und wird von zahlreichen Unternehmen wie Amazon, Facebook, IBM, Twitter sowie Yahoo eingesetzt. Weitere Projekte mit Hadoop sind Ambari, Cassandra, HBase, Hive, Pig und ZooKeeper.

Diese Definition wurde zuletzt im August 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close