Was Sie noch nicht über AWS und Big Data wissen

Die Amazon Web Services (AWS) bieten verschiedene Analyse-Funktionen für Big Data. Wir zeigen drei Dinge, die Sie dabei unbedingt wissen sollten.

Während die Datenflut anwächst, bietet Amazon Web Services (AWS) Unternehmen Dienstleistungen an, um einen größeren...

Geschäftswert mit den Daten zu erreichen. Hadoop, DynamoDB und Elastic MapReduce sind die zentralen Bausteine von AWS, um Unternehmen bei der Verwaltung, Speicherung und Analyse der Daten zu helfen. Es existieren aber auch ein paar Schätze, die sich tiefer unter der Oberfläche verstecken. Im Folgenden zeigen wir drei dieser Schätze.

Kostenloses Big Data in der Amazon-Cloud

Wenn Unternehmen an Big Data denken, konzentrieren sie sich auf Informationen, die sie von ihren Kunden erhalten. Einige Mitarbeiter denken daneben auch über den Wert von Daten nach, die sie bei Partnern sammeln. Doch was ist mit den Daten, die kostenlos für alle zur Verfügung stehen?

AWS bietet eine Bibliothek freier Datensätze an. Viele dieser Informationen haben einen begrenzten Geschäftswert. So haben wohl nur wenige Nutzer ein (legales) Interesse daran, die komplette DNA-Sequen der Cannabis-Pflanze „Chemdawg“ zu durchforsten. Informationen mit einem kommerziellen Wert sind dagegen beispielsweise Wirtschaftsdaten, die bei der letzten Volkszählung in Japan erhoben wurden oder Millionen anderer Datensätze des Freebase Data Dumps. Die Informationen sind meist schon etwas älter, so dass hier nicht wirklich von Echtzeit gesprochen werden kann. Doch wenn man richtig sucht, lässt sich eventuell viel Geld sparen. Das wertvollste an der AWS Bibliothek ist, dass es zum nachdenken anregt, wo eventuell kostenlose Daten schlummern.

AWS schult beim Umgang mit Big Data

AWS ist einer der Sponsoren der Big-Data-Universität. Bisher wurde das Online-Portal von IBM dominiert. Doch Amazon versucht Studenten für seine Vorlesungen zu animieren, indem es Geschenke für AWS verteilt. Die Online-Universität bietet eine Vielzahl kostenloser Seminare an. Die Tutorials für Hadoop scheinen sehr beliebt zu sein, wie etwa der Kommentar des Nutzers „Roman“ zeigt: „Der Kurs spart mir viel Zeit beim Lesen von Büchern über Hadoop. Ich möchte so schnell wie möglich Ergebnisse sehen. Vor zwei Monaten wusste ich nichts über Hadoop. Mittlerweile habe ich sieben Hadoop-Cluster erstellen können.“

Anwender mit mehr Erfahrung beim Umgang mit Big Data, können eigene Online-Kurse anbieten. Das erleichtert Unternehmen zum Beispiel das Erstellen eigener Tutorials und bewahrt den Wissensschatz, wenn ein Entwickler den Job wechselt. Außerdem vergrößert es unter Umständen den Pool potentieller Nachfolger für ausgeschiedene Entwickler.

Rechenleistung für Big Data mieten

Stehen Ihnen Ressourcen für das Sammeln und Speichern von Daten zur Verfügung, müssen Sie auch mehr Geld für die Verabeitung einplanen. Die sinnvolle Nutzung von Analytik-Funktionen benötigt Rechenleistung. Manche Daten müssen stündlich oder annähernd in Echtzeit verarbeitet werden. Andere Datensätze wiederum bei Bedarf. Das kann täglich, monatlich, nach jährlichen Ereignissen oder nach dem Erwerb großer Datenmengen sein. AWS bietet mit Elastic Compute Cloud 2 (EC2) einen Service dafür an.

AWS hat fast immer Ressource zur Verfügung, die nicht genutzt werden. Wie leere Kabinen auf einem Kreuzfahrtschiff, ist der Zugang zu diesen für einen ermäßigten Preis erhältlich. Sie bieten ihren Maximalpreis für die Verwendung der Instanzen pro Stunde (Amazon EC2-Spot-Instances) und erhalten so lange Zugriff, bis Sie jemand überbietet (siehe Video). Wenn sie überboten oder Ressourcen knapp werden, beendet Amazon ihre zusätzlichen Instanzen. Das heißt auch, dass Sie diese Instanzen nicht für geschäftskritische Analysen verwenden sollten, sondern nur als Teil einer größeren Verarbeitungsinstanz.

AWS hat einige Fallbeispiele von Unternehmen veröffentlicht, die diese Ansatz nutzen, um Geld zu sparen. Foursquare verwendet Spot-Instanzen zum Beispiel, um die Daten von drei Millionen täglichen Anfragen zu bearbeiten. Für diese Arbeit sind viele Ressourcen notwendig, allerdings möchte Foursquare nicht den vollen Preis zahlen. Sie erledigen daher bestimmte Aufgaben auf diesen Instanzen, deren Abbruch keine größeren Probleme verursachen würden. AWS warnt letztliche seine Kunden, dass Anwendungen auf den Spot-Instanzen eine hohe Fehlertoleranz haben sollten, um ihren Vorteil auszukosten.

Artikel wurde zuletzt im November 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close