Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Datenqualität und Management: Big Data erfordert Big-Data-Management

Immer mehr Nutzer wollen in Echtzeit Daten aus einer großen Datenmenge und unterschiedlichen Quellen analysieren. Das erfordert Big-Data-Management.

Google listet allein zum Stichwort Big Data rund 743 Millionen Ergebnisse auf. Doch was ist eigentlich Big Data?...

Big Data kennzeichnet sich durch fünf Merkmale aus. Diese fünf Merkmale werden im folgenden Artikel vorgestellt. Dabei liegt ein Schwerpunkt auf den Herausforderungen von Big Data für traditionelles Information Management: aus Information Management wird Big-Data-Management.

Volumen

Das betrifft die Menge der Daten, die zu verarbeiten sind. Die Menge der Daten im Unternehmen und außerhalb des Unternehmens wächst kontinuierlich. Dabei handelt es sich sowohl um strukturierte wie auch unstrukturierte Daten. Zu den letzteren zählen nicht nur Formulare und Textdokumente, sondern auch Abbildungen, Fotos, Audio und Video-Aufzeichnungen. So ist nicht nur im Handel, sondern beispielsweise auch im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf) in den letzten Jahren das Datenvolumen geradezu explodiert.

In Folge dieser Datenflut (manche sprechen von einem Daten-Tsunami) ist die traditionelle relationale Datenhaltung an ihre Grenzen gestoßen. Um die Petabytes und mehr Daten zu lesen und zu durchsuchen, nutzt man heute NoSQL-Datenhaltungssysteme. Hier werden unterschiedliche Software- und Hardware-Technologien miteinander kombiniert: Spaltenorientierung, Parallelisierung, Datenkompression, In-Memory-Verarbeitung, massiv parallele Verarbeitung (MPP) über Rechner-Cluster und spezielle Data Appliances. Dabei gibt es auch Open-Source-Systeme wie beispielsweise Hadoop, das der Standard der Zukunft werden könnte.

Vielfalt

Die Menge der Datenquellen wächst ebenfalls ständig. Die prominentesten Produzenten sind soziale Medien (allein über eine Milliarde Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, um nur einige zu nennen, maschinenerzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere.

Traditionelles Information Management stößt ebenfalls an seine Grenzen. Es hat sich zu Big-Data-Management weiterentwickelt. Dabei setzen sich die drei Hauptkomponenten von traditionellem Information Management entsprechend fort.

Big Data Integration

Hier werden zunächst einmal die traditionellen Datenintegrations-Technologien wie ETL- und ELT-Prozesse und Echtzeit-Verarbeitung (change data capture, event triggering, web services) weiter genutzt. Neu dazu kommen MapReduce-basierte Flat-File-Verarbeitung zum Sortieren, Filtern, Mischen und Aggregieren von Daten inklusive einiger Basis-arithmetischer Funktionen.

Ein Beispiel ist das FileScale-Verfahren von Talend, das auch von Anbietern wie Uniserv genutzt wird. Alternativ kann man aber auch auf alte und bewährte Technologien wie DMExpress von Syncsort zurückgreifen, die im Zuge von Big Data wiederentdeckt werden. Schließlich wird – und das ist neu – Unterstützung für Hadoop benötigt (Import, Export und interne Verarbeitung).

Big Data Lineage

Data Lineage basiert auf einem Repository zur Metadatenverwaltung und Verwaltung aller Transformationsregeln: Alle Objekte der Datenintegrations-Plattform werden im Endeffekt hier abgebildet, damit alle Objekte vom Ursprung bis zum Ziel über den gesamten Informationslebenszyklus verfolgt werden können und bei Änderungen so weit wie möglich auch alle betroffenen Objekte gleich mit geändert werden.

Das bleibt grundsätzlich so bei Big Data. Allerdings müssen nun auch alle Metadaten zu Big-Data-Objekten und Entitäten verwaltet werden. Das Repository wird also wichtiger und es kommt jetzt besonders auf die Performanz an, die mit der Repository-Technologie erreicht werden kann.

Big Data Quality

Datenqualität spielt auch bei Big Data eine zentrale Rolle, vor allem dann, wenn Unternehmensdaten mit Information aus Big Data angereichert werden sollen, also beispielsweise Kundendaten durch Daten aus sozialen Medien oder Patientendaten mit therapeutischen Daten im Gesundheitswesen ergänzt werden. Die Grundaufgaben von Datenqualitäts-Management bleiben die gleichen. Es geht wie immer um das Profiling, das Cleansing sowie Anreichern und Abgleichen mit Referenzdaten. Aber auch hier steigen bei Big Data die Bedeutung von Datenqualität – das Schaffen des „single point of truth“ ist beim gegebenen Datenvolumen schwieriger geworden – und die Anforderungen an die Performanz der Datenqualitätslösungen.

Auf technologischer Seite müssen Unternehmen beim Big-Data-Management sicherstellen, dass die Performance stimmt: Alle Werkzeuge, Services und Plattformen müssen entsprechend skalierbar sein. Das wird in der Regel durch Parallelverarbeitung erreicht. Hinzu kommen die Anforderungen neuer Methoden wie Hadoop. Ein weiteres Muss ist die Serviceorientierung der Plattform und der Werkzeuge. So lassen sich hybride Cloud-Lösungen betreiben, beispielweise ein Datenqualitäts-Management as a Service in ETL-Prozessen, um Social-Media-Daten über Referenzdaten auf korrekte Adressen zu prüfen. Ein guter Anbieter hierfür ist etwa Uniserv. Diese Prozesse sind entscheidend, um auch mit Big Data den „single point of truth“ im Unternehmen zu bewahren.

Doch es erfordert auch neue Fähigkeiten insbesondere in der IT. In einigen Unternehmen, wie zum Beispiel Amazon, eBay, Facebook und Google, die sich schon einige Zeit mit Big Data beschäftigen, haben sich neue Rollen wie Data Scientists gebildet. Das sind Mitarbeiter mit folgenden Eigenschaften:

  • Technische Expertise: tiefe Kenntnisse in einer Natur- oder Ingenieurs-Wissenschaft sind notwendig.
  • Problembewusstsein: die Fähigkeit, ein Problem in testbare Hypothesen aufzubrechen.
  • Kommunikation: die Fähigkeit, komplexe Dinge durch einfach verständliche und gut kommunizierbare Sachverhalte darzustellen.
  • Kreativität: die Fähigkeit, Probleme mit anderen Augen zu sehen und anzugehen („thinking out of the box“).

Im Endeffekt wird so Daten-Management wieder zur eigentlichen Hauptaufgabe der IT, während das Beherrschen der Prozesse und der Analytik die Hauptaufgabe der Fachbereiche ist.

Neben Datenvolumen und Vielfalt der Datenquellen gibt es noch zwei weitere Merkmale von Big Data, die der Vollständigkeit halber aufgezählt werden. Diese betreffen aber weniger Datenhaltung- und Daten-Management, sondern die Analytik:

  • Geschwindigkeit: Die Verarbeitung und Analyse vieler unterschiedlicher Daten muss in nahezu Echtzeit erfolgen, denn von diesen Daten hängen beispielsweise Steuerungs- und Abrechnungssysteme ab. Diese Herausforderung richtet sich an die Analysesysteme: Die Geschwindigkeit der Analyse muss gesteigert werden. Hier helfen NoSQL-Datenhaltungssysteme. Damit aber die bekannten analytischen Werkzeuge genutzt werden können, braucht man entweder HLQL-Systeme, die die SQL-Schnittstellen der analytischen Werkzeuge in MapReduce umsetzen oder Anbieter ergänzen ihre analytischen Werkzeuge um MapReduce-Schnittstellen.
  • Verbraucher: Die Zahl der Verbraucher von Big-Data-Information steigt ebenfalls unaufhörlich. Dies sind entweder immer mehr Mitarbeiter in diversen Fachabteilungen, die Information beispielsweise über Kunden, Mitbewerber und Markt benötigen, oder Systeme, die über Big-Data-Informationen gesteuert werden wie die Überwachung und Steuerung von Netzwerken (Telefonie, Computer, Luft-, Straßen- und Eisenbahn-Verkehr). Traditionelle Business Intelligence (BI) -Systeme kommen hier an ihre Grenzen. Hier sind intuitive, visuell-ausgelegte Systeme gefragt, die in Self-Service Business Intelligence ihre Entsprechung finden. Außerdem ist die Analyse von unstrukturierten Daten unabdingbar. Mit Textanalyse ist ein Anfang gemacht: bekannte statistische Mining-Verfahren werden heute durch linguistische Verfahren und statistisches Lernen ergänzt.

Fazit

Wie im Unternehmen mit traditionellem Information Management geht es beim Big-Data-Management darum, vertrauenswürdige Daten zu schaffen. Dabei stellt Big Data neue Anforderungen an die Technologien der Datenhaltung, des Daten-Managements und der Analytik. Beim Daten-Management geht es immer noch um Integration, Lineage und Qualität. Doch die bekannten Ansätze müssen um NoSQL-Innovationen wie Hadoop ergänzt werden. Das erfordert insbesondere neue Fähigkeiten in der IT und einen weiteren Ausbau der Zusammenarbeit von IT und Fachabteilungen. Die IT muss in Zeiten von Big Data den Hauptfokus auf Daten-Management legen.

Über den Autor:

Dr. Wolfgang Martin ist unabhängiger Analyst. Vor der Gründung des Wolfgang Martin Teams war Dr. Martin über fünf Jahre bei der META Group, zuletzt als Senior Vice President International Application Delivery Strategies.  Darüber hinaus kennt man ihn aus TV-Interviews, durch Fachartikel in der Wirtschafts- und IT-Presse, als Autor der Strategic Bulletins zu den Themen BI, SOA, EAI und CRM (www.it-research.net) und als Herausgeber und Co-Autor mehrerer Bücher.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im November 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close