Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Big Data und Cloud Computing mit Akzeptanzproblemen

Big Data und Cloud Computing bieten zahlreiche Möglichkeiten. Allerdings nutzen viele Firmen Technologien im Cloud- und Big-Data-Umfeld noch zu wenig.

Big Data in der Cloud. Das ist so etwas wie die berühmte Beschreibung der Zukunft von Science Fiction Autor William...

Gibson: „Die Zukunft ist schon da. Sie ist bloss noch nicht gleichmässig verteilt.“

Big Data in der Cloud ist tatsächlich schon da. Nicht überall, aber in einigen Bereichen. Hochkarätige Cloud-Player wie Amazon Web Services (AWS), Google, Microsoft, IBM und Rackspace bieten cloudbasiertes Hadoop und NoSQL-Datenbanken zur Unterstützung von Big-Data-Anwendungen. Eine Vielzahl von Start-ups haben Managed Services eingeführt, die auf solchen Cloudplattformen laufen. Sie befreien deren Nutzer von der Notwendigkeit, ihre eigenen Systeme dort betreiben zu müssen. Für Internetunternehmen – und vor allem Software und Datendiensteanbieter, die gerade erst losgelegt haben – ist das Mischen von Big Data und Cloud Computing häufig die erste Wahl.

Die meisten Mainstream-Organisationen allerdings hinken hinterher. Sie haben die Möglichkeiten, die das Managen der Daten in der Cloud bietet – anders als die Webwunderkinder –, noch nicht auf dem Schirm. Zu groß sind die Vorbehalte: Bei einigen bricht regelrecht der Angstschweiss aus, wenn sie an die Datensicherheit und den Schutz der Privatsphäre in der Cloud denken. Andere lassen immer noch die meisten ihrer IT-Operationen auf Mainframes und anderen gut verschanzten Systemen weit entfernt von Cloudarchitekturen laufen.

Auch die schiere Masse von Daten, die in solchen Systemen gespeichert sind, macht einen Umzug in die Cloud zu einer Herausforderung. Darüber hinaus stellen die verfügbaren Verarbeitungskapazitäten in den bestehenden Rechenzentren die versprochenen finanziellen Vorteile von Public Clouds wie AWS und der Google Cloud Platform als weniger zwingend dar. Das gilt auch für Unternehmen, die an geringeren Kosten und höherer Flexibilität interessiert sind.

Ein typischer Fall ist die Citigroup. Da das Web zur allgegenwärtigen Anwendungsschnittstelle geworden ist, ist der Finanzdienstleister mit einer wahren Flut unstrukturierter Daten konfrontiert. Das Unternehmen muss sich außerdem in seinen Online-Finanzanwendungen mit einem Mix aus unterschiedlichsten Datenstrukturen befassen.

Diese Herausforderungen hatten zu Folge, dass die Citigroup die NoSQL-Datenbank MongoDB einführte. MongoDB wird von AWS und anderen Cloudplattformen unterstützt und die Citigroup nutzt die Software im Rahmen eines Cloudansatzes, sagt Michael Simone, Global Head von CitiData Plattform Engineering. In diesem Fall ist es allerdings eine Private Cloud, die innerhalb der Firewall-Grenzen des New Yorker Unternehmens gebaut wurde und die komplett von der IT-Abteilung verwaltet wird.

„Im Moment sind wir nicht daran interessiert, diesen Ansatz zu erweitern oder in eine Public Cloud zu integrieren", sagte Simone Teilnehmern der MongoDB World 2015 in New York im Juni. „Die Rechenzentren der Citigroup sind groß und reichen für die Anforderungen aus, und wir sind überzeugt, dass wir eine Private Cloud aufbauen können, die sich rechnet.“

Big Data Cloud ist noch nicht überfüllt

Aktuell sind Big-Data-Systeme in der Cloud immer noch ein Minderheitenthema. Von 222 IT- und Business-Profis, die zwischen Oktober 2013 und Mai letzten Jahres ein Online Assessment eines Big Data Maturity Modells abgeschlossen haben, das von The Data Warehousing Institute entwickelt wurde, sagten nur 19 Prozent, dass ihre Organisationen Big-Data-Anwendungen über Public, Private oder hybride Clouds unterstützen. Weitere 40 Prozent gaben zwar an, Cloudimplementierungen würden in Betracht gezogen, aber mehr als ein Drittel sagte, dass sie nicht die Absicht hätten, Cloudanwendungen zu verwenden.

Eine Online-Befragung, die im Sommer 2013 durch die Unternehmensberatungen Enterprise Management Associates und 9sight Consulting gemacht wurde, stellte allerdings eine etwas höhere Nutzung fest: Danach gaben immerhin 39 Prozent der 259 Befragten an, dass ihre Big-Data-Installationen Cloudsysteme integrieren.

Einige Beispiele zeigen, was die Verbindung von Big Data und Cloud Computing leisten kann. Weather Channel LLC beispielsweise ist ein Unternehmen, das auf die Public Cloud aufgesprungen ist und replizierte Instanzen von Riak nutzt, einer NoSQL-Datenbank von Basho Technologies, die auf mehrere AWS Availabiltiy Zones verteilt sind. Damit verarbeitet und speichert Weather Channel eine Mischung aus Daten von Satelliten, Radarsystemen, Wetterstationen und anderen Quellen. Die Datenbank versorgt Prognose Engines zur Wettervorhersage und aktualisiert die Daten von 36.000 geographischen Wetter Grids alle fünf Minuten. Sie wird außerdem verwendet, um historische Daten zu archivieren.

Bryson Koehler, Executive Vice President und CIO bei dem in Atlanta ansässigen TWC, lobte die Technologie von Riak für seine Fehlertoleranz und die Unterstützung sowohl von In-Memory als auch festplattenbasierter Verarbeitung. „Wenn man diese Technologie mit dem Mainstream der relationalen Datenbanken vergleicht, muss man sagen, dass die relationalen Datenbanken nicht auf High-Volume-Cloud-Umgebungen ausgerichtet sind – zumindest nicht bei solch niedrigen Kosten“, sagt Koehler. Bei TWC ist die Implementierung der NoSQL-Software in der Cloud Teil einer umfassenderen IT-Strategie, die hilft, TWC die Flexibilität zu geben, um jederzeit einen Kurswechsel machen zu können. Das Unternehmen betreibt Anwendungen sowohl in der Google-Cloud als auch auf AWS. Ein Umzug hilft „einen Lock-in zu verhindern, und vermeidet, sich zu sehr an einen Provider oder an eine Technologie zu binden“, erläutert Koehler.

Mehr Cloud-Geschmacksrichtungen zur Auswahl

Public-Cloud-Anbieter haben inzwischen ihre Daten-Management-Funktionalitäten weit über einfache relationale Datenbanken hinaus ausgebaut – teilweise auch in Hinblick auf die Big-Data-Bedürfnisse von Unternehnen. AWS beispielsweise hat im Laufe der Jahre seine Cloudoptionen erheblich erweitert. So hat AWS nun Technologien integriert wie DynamoDB, eine NoSQL-Datenbank, die Hadoop-Technologie Elastic MapReduce sowie den ElastiCache In-Memory Caching-Service. Außerdem bietet es das Redshift Data Warehouse und das Kinesis Streaming System für die Verarbeitung großer, verteilter Datenströme in Echtzeit.

Aktuell haben AWS und andere Cloudanbieter „ziemlich anspruchsvolle Dienstleistungen“ geschaffen, so David Linthicum, Senior Vice President bei Consulting Technology Partners. Einige der Cloud-Data-Management-Plattformen sind mittlerweile „in der fünften und sechsten Generation“ verfügbar, sagt er. „Diese Produkte wurden zunächst ab- und dann wieder aufgebaut.“

Für große Unternehmen mit reichlich interner Processing Power rechnet sich das Hinzufügen externer, cloudbasierter Systeme für das Management von Big-Data-Pools nicht unbedingt. „Warum sollten Sie ein Abonnement für etwas zahlen, was Sie bereits haben? Kunden, die Hunderttausende von Dollar in Storage-Architekturen investiert haben, werden diese Investition nicht so einfach aufgeben“, sagt Aaron Ebertowski, Lead Infrastructure Architect bei Nimbo, einem Beratungshaus für Cloud Services.

Auch hohe Leistungsanforderungen können ein Faktor sein, die Nutzung einer Public Cloud nicht in Betracht zu ziehen. Ocean Networks Canada (OCN), eine Non-Profit-Organisation, die in British Columbia einige Ozean-Beobachtungsstellen betreibt, plant, eine Private Cloud einzurichten. In dieser Cloud soll eine Anwendung die Daten von marinen Sensoren nutzen, um Simulationen von Erdbeben und Tsunamis laufen zu lassen. Das Ziel ist es, eine bessere Vorhersage potenzieller Naturkatastrophen zu ermöglichen, so dass Regierungsbehörden Vorkehrungen treffen können, die schlimmsten Auswirkungen auf Menschen möglichst zu minimieren, sagt Benoit Pirenne, stellvertretender Direktor der digitalen Infrastruktur bei ONC.

Große Big Data Power benötigt

Die Organisation, die der University of Victoria angegliedert ist, erhielt im vergangenen Frühjahr die Genehmigung und Finanzierung für das dreijährige Projekt. Die geplante Analysearbeit beinhaltet das Sammeln einer Reihe von Sensormessungen und das Simulieren von Vorhersagemodellen. Damit soll eine große Bibliothek von möglichen Szenarien generiert werden. Um dieses Ziel zu erreichen, werden laut Pirenne allerdings eine Menge von Daten und gewaltige Rechenleistungen benötigt.

„Die Echtzeit-Berechnung [der Simulationen] ist fast unmöglich, auch auf einem sehr extravaganten, parallel arbeitenden Cloudsystem“, sagte er. Um die Processing und Analyse Workloads zu bewältigen, arbeitet ONC aktuell mit IBM zusammen und baut eine interne Cloudarchitektur auf.

Die gerade auf den Markt drängenden Managed Service Provider – Unternehmen wie Altiscale, BitYota, Qubole, Treasure Data und die Rackspace-Tochter ObjectRocket – behaupten, dass sie Big-Data-Cloudinstallationen für Anwenderunternehmen einfacher und kostengünstiger machen. Dies wird dadurch möglich, dass die Provider Installations- und Administrationsaufgaben übernehmen und das zu einem niedrigeren Preis anbieten als die herkömmlichen Cloudplattform-Anbieter.

Sellpoints, ein Online-Marketing und Analytics-Serviceanbieter, nutzt Hadoop zusammen mit der Spark Processing Engine, um schnell Tabellen zu bauen für die Abfrage von „komprimierten Daten im zweistelligen Terabyte-Bereich“ über die Webaktivität von Verbrauchern, sagt Benny Blum, Vice President des Unternehmens.

Helfende Hände für Hadoop

Blums Gruppe setzte zunächst ihr eigenes Hadoop-System auf der Amazon Elastic Compute Cloud und der EC2 Plattform ein. Mittlerweile aber haben sie das System auf die Cloudplattform Altiscale Hadoop as a Service verlegt. Der Dienst läuft zwar auch auf der Amazon-Cloud, aber Blum sagt, das Offloading der Hadoop Konfigurations- und Verwaltungsaufgaben zahle sich für Sellpoints aus. „Altiscale verwaltet das Bare Metal für uns. Deshalb müssen wir nicht die Kosten für den Betrieb der Cluster zahlen.“

Zumindest bislang sind die Nutzer solcher Dienste in der Regel die aufstrebenden Unternehmen selbst. Und die meisten Service-Provider haben erst eine Kundenbasis im ein- oder zweistelligen Bereich.

Mehr zum Thema Big Data:

Wie man Big Data aus Sicherheitsperspektive angeht.

Das Big-Data-Framework Apache Spark beschleunigt Analytics.

Big Data für ein industrielles Internet der Dinge einsetzen.

Hadoop 2 bietet für Big-Data-Umgebungen eine bessere Analytics-Verarbeitung.

Die zwei größten Big-Data-Fehler – und wie sie vermieden werden.

Rick Sherman, Gründer des Beratungsunternehmens Athena IT Solutions, glaubt, dass sich insbesondere cloudbasierte Hadoop Dienste auf eine breitere Basis stützen werden. „Im Augenblick laufen die Leute mit Roll-your-own Hadoop gegen eine Wand“, sagt er. „Es erfordert hohe Investitionen in Zeit und Know-how. Ich denke, dass Hadoop as a Service letztlich viel attraktiver sein wird als ein lokales On Premise Hadoop.“

Einige Unternehmen sind allerdings überhaupt nicht bereit für Hadoop aus der Public Cloud – und werden es wahrscheinlich für einige Zeit auch nicht sein. Mit einer solchen Situation ist Ayad Shammout konfrontiert, Direktor für Data Platforms and Business Intelligence am Beth Israel Deaconess Medical Center (BIDMC) in Boston. Im vergangenen Jahr, als er als unabhängiger Berater tätig war, arbeitete er mit einem Kollegen an einem Big Data- und Cloud Computing Proof-of-Concept-Projekt für das BIDMC. Da sie die Storage- und Processing-Anforderungen auf einer SQL Server-Datenbank reduzieren wollten, verwendeten sie Azure HDInsight, die cloudbasierte Hadoop Distribution von Microsoft.

Shammout sagt, das Demonstrationsprojekt zeige das Potenzial, das Hadoop-Anwendungen in der Cloud haben. Und er glaubt, Provider im Gesundheitswesen wie BIDMC könnten davon profitieren. Aber Bedenken wegen der Einhaltung des Datenschutzes und die Sicherheitsbestimmungen des Federal Health Insurance Portability and Accountability Act stehen bislang einer Produktivumgebung im Wege – und das vielleicht noch für Jahre.

„Wenn ich mit Ihnen vor drei oder vier Jahren über die Cloud gesprochen hätte, hätte ich gesagt, 'nein, es wird nicht passieren'“, sagt Shammout. „Jetzt kann ich sagen, dass es für einige Abteilungen Sinn macht. Meine Erwartung ist, dass der Clouddatenschutz in weiteren drei oder vier Jahren nicht mehr das Problem sein wird, das es heute ist.“

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im August 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close