Bessere Datenqualität mit Big-Data-Analytics und Hadoop

Weniger Kosten und Echtzeit-Verarbeitung sind zwei Vorteile von Hadoop. Doch es gibt auch Nachteile, wie etwa fehlende durchgängige Datensicherheit.

Signifikante Kosteneinsparungen, Verarbeitung annähernd in Echtzeit, Flexibilität – dies sind Vorteile, die Unternehmen aus Big-Data-Analytics in Verbindung mit Hadoop ziehen können. Das Resultat sind schnellere Entscheidungen sowie Unterstützung bei der Einführung neuer Produkte und Services.

Den Wert von Big-Data-Analytics stellt heute kaum noch jemand infrage. Wie eine Studie der Universität Potsdam zeigt, ist das Bewusstsein für die Notwendigkeit von Big-Data-Analytics inzwischen auch in der Chefetage angekommen. 

Hans-Joachim Edert,
Senior Solutions Architect,
SAS Deutschland

Dennoch bescheinigt die Studie „Wettbewerbsfaktor Analytics“, die in Zusammenarbeit mit dem Softwarehersteller SAS gemacht wurde, Unternehmen in Deutschland, Österreich und der Schweiz gerade mal einen „Ad-hoc“-Status in Sachen analytischer Reife. Das heißt, entsprechende Lösungen werden immer noch überwiegend fallbezogen und nicht systematisch eingesetzt.

Ein Faktor, der diesen Umstand wesentlich verändern kann und schon verändert, ist Hadoop. Als Apache-Projekt initiiert, erhält das verteilte Open-Source-Framework viel Aufmerksamkeit von Unternehmen, die riesige Mengen und eine große Vielfalt an Daten speichern und verarbeiten müssen. 

Mit der passenden analytischen Infrastruktur kann Hadoop wertschöpfend im Rahmen von Big-Data-Analytics eingesetzt werden. Dazu gilt es jedoch, vorab Fragen zu klären, beispielsweise nach der Datenaufbereitung, den vorhandenen Analysetechniken oder In-Memory-Verarbeitung mit Hadoop.

Die Vor- und Nachteile von Hadoop

Was Hadoop so attraktiv für Unternehmen macht sind Kosteneinsparungen. Mit Standardhardware lassen sich riesige Datenmengen speichern. Hadoop kann zudem ganz einfach durch das Hinzufügen zusätzlicher Rechenknoten erweitert werden. Weitere Flexibilität gewinnt Hadoop durch die Möglichkeit, bei ausreichender Kapazität mehrere Kopien der gleichen Aufgabe für denselben Datenblock anzulegen. Bei Ausfall eines Knotens werden Jobs automatisch an andere Server weitergeleitet.

Noch ein Vorteil ist, dass Hadoop im Gegensatz zum Data Warehouse kein vorgegebenes Schema erfordert. Stattdessen können Daten jedes Typs aus beliebigen Quellen erhoben werden, und erst beim Zugriff wird entschieden, wie diese Daten genutzt werden. Damit ist Hadoop für die Analyse großer Datenmengen, insbesondere unstrukturierter Daten, prädestiniert.

Trotz dieser Pluspunkte weist Hadoop derzeit noch einige Nachteile auf, gerade was den Einsatz im Enterprise-Umfeld angeht. Dazu gehören Funktionalitäten für Management und Hochverfügbarkeit, die erforderlich sind, um Hadoop-Cluster in die Rechenzentrumsinfrastruktur einzubinden. Es gibt noch keine durchgängige Datensicherheit und das MapReduce-Verfahren ist Batch-orientiert, daher nicht für die iterative analytische Verarbeitung in mehreren Schritten geeignet.

Es mangelt dem Hadoop-Ökosystem zudem an einem integrierten Toolset für Datenmanagement und -bereinigung (insbesondere im Bereich Datenqualität) beziehungsweise Governance und Metadaten. Nicht zuletzt gibt es noch zu wenige Hadoop-Experten. Doch die Schwachstellen insbesondere bei den Funktionsmerkmalen lassen sich durch Weiterentwicklungen oder im Zusammenhang mit leistungsstarker Software für Datenmanagement und -analyse ausgleichen.

Ressourcenauslastung mit dem Open-Source-Framework

Eine der wichtigsten Neuerungen des aktuellen Hadoop-Release ist wohl die Umstellung auf YARN (Yet Another Resource Negotiator) für das Ressourcen-Management von Hadoop-Clustern. Die Weiterentwicklung des bisherigen MapReduce-Verfahrens ermöglicht eine bessere Auslastung des Clusters, da der YARN-Service bei Anfragen die Ressourcen für einzelne Aufträge genau nach Bedarf zuweist. 

Eine Analysesoftware, wie sie beispielsweise SAS bietet, die in das Hadoop-Cluster eingebettet ist, kündigt den benötigten Bedarf gegenüber YARN an, wodurch Engpässe vermieden werden. Dadurch verkürzen sich auch Antwortzeiten und interaktives Arbeiten auf dem Cluster wird erleichtert.

Einsatzszenarien in verschiedenen Branchen

Hadoop bietet eine Umgebung für Datenspeicherung und analytische Verarbeitung in verschiedenen Geschäftsbereichen. Dazu gehört zum Beispiel:

  • Financial Services: Risikomanagement bei Versicherungen, Betrugserkennung oder Analyse von Kundenverhalten;
  • Handel: Location-based Marketing, persönliche Empfehlungen und Website-Optimierung;
  • Telekommunikation: Bandbreitenzuteilung, Analyse der Netzwerkqualität und der Nutzungsstruktur;
  • Gesundheitswesen und Life Sciences: Genomdaten in medizinischen Versuchen und Einhaltung von Verschreibungsrichtlinien;
  • Produktion: Logistik und Ausfallsicherung;
  • Öl, Gas & Utilities: Prädiktive Wartung, Optimierung der Anlagennutzung und Kontrolle der Gerätesicherheit;
  • Öffentliche Verwaltung: Sentiment-Analyse, Betrugserkennung und „Smart-City“-Initiativen.

Beispiele von Hadoop-Anwendungen mit SAS

SAS unterstützt die jeweils aktuellsten Releases der Hadoop-Distributionen. Das heißt, Hortonworks HDP 2.1, das auf Apache Hadoop 2.4 basiert, und Cloudera CDH 5.1 (basiert auf Apache Hadoop 2.3). Für effiziente Datenanalysen auf Hadoop hat der Softwarehersteller sein Angebot erweitert. Mit dem SAS Data Loader bietet SAS eine webbasierte Schnittstelle für Hadoop, die auch Mitarbeitern ohne spezifische IT-Kenntnisse das Arbeiten mit Hadoop erlaubt. 

Über eine Oberfläche werden schrittweise Abfragen zusammengestellt, die im Hintergrund auf Hadoop ausgeführt werden. Der Data Loader läuft auf den aktuellsten Cloudera- und Hortonworks-Distributionen.

Die In-Memory Technologie von SAS zusammen mit Hadoop

Ein besonderer Fall von Big-Data-Analytics ist das Angebot von In-Database-Produkten von SAS. Hier wird ein Softwarebaustein mit besonderer analytischer Funktionalität direkt auf den Data Nodes des Hadoop-Clusters verteilt. So können Analysen – zum Beispiel Scoring-Verfahren, die eine Kündigungswahrscheinlichkeit vorhersagen – ohne Datenbewegungen gemacht werden. 

Der SAS Data Loader for Hadoop bietet hier, neben den schon genannten Direktiven für Hadoop-Datenmanagement (Abfragen) auch Benutzerschnittstellen für diese Form von In-Database Analytics sowie für die Datenbeladung der SAS In-Memory-Lösungen (zum Beispiel Visual Analytics). Die integrierte Hadoop Profiling Engine wiederum gibt anhand eines Reports einen schnellen Überblick darüber, wie konkrete Daten in Hadoop strukturiert und verteilt sind. Auf diese Weise ist es zum Beispiel möglich, inkonsistente und fehlende Daten zu identifizieren und aufzufinden, was sonst zeitaufwendige einzelne Abfragen erfordern würde (siehe Abbildung 1).

Fazit: Datenqualität ist entscheidend

Mit dem Einsatz leistungsstarker Analytics-Software in Verbindung mit den kostengünstigen Speichermöglichkeiten und der umfangreichen Datenverarbeitung, wie Hadoop sie bietet, können Unternehmen das Maximum aus ihren Big-Data-Beständen holen. Auf Hadoop spezialisierte Lösungen helfen, Hadoop nahtlos in die firmeneigene IT-Infrastruktur zu integrieren.

Moderne analytische Algorithmen wie Predictive Analytics, Machine Learning, Optimierung und Text Mining ermöglichen es, zeitnah wertvolle Informationen sowohl aus strukturierten als auch unstrukturierten Daten in Hadoop zu ziehen. Dadurch erschließen sich neue Geschäftschancen, die Unternehmen einen Vorsprung vor den Wettbewerbern verschaffen.

Hadoop oder Nicht-Hadoop – was bei jedem Projekt zählt ist die Qualität und nicht die Menge an Daten. Nur wenn die Datenqualität stimmt, lassen sich valide Analyseergebnisse aus den (unstrukturierten) Informationen ziehen. Die Erstellung und Messung von Metriken rund um Umsatzgenerierung, Risikominimierung und Geschäftsprozessoptimierung werden die Akzeptanz von Pilotprojekten fördern und das Interesse anderer Abteilungen wecken. 

Entscheidend ist jedoch, dass eine Analytics-Lösung als integraler Bestandteil der Hadoop-Implementierung eingesetzt wird, die den gesamten „Data-to-Decision“-Prozess unterstützt. Auf diese Weise wird Hadoop von einem einzelfallbasierten Einsatz zu einer breitflächigen, umfassenden Nutzung im gesamten Unternehmen aufgewertet.

Fünf Schritte zu besserer Datenqualität

1. Data Profiling: untersucht die Struktur, die Beziehungen und den Inhalt vorhandener Datenquellen, um ein genaues Bild vom Zustand der Daten zu erhalten. Diese Einschätzung bildet die Grundlage für die Planung der sinnvollsten Wege zur Korrektur und Harmonisierung der Informationsbestände. Dabei werden die Aspekte Datenstruktur, Dateneinträge und Datenbeziehungen erfasst und bewertet.

2. Datenqualität: Das Verfahren nutzt die Resultate der Datenanalyse, um mit dem Aufbau höherwertiger Daten zu beginnen. In diesem Schritt werden Fehler korrigiert, Informationen standardisiert und Daten unternehmensweit validiert. Parallel zum Datenqualitätsverfahren muss aber auch Ursachenforschung betrieben werden. Nur wenn ein Unternehmen die Gründe für Fehler in den Daten ermittelt, kann es die Qualität nachhaltig verbessern.

3. Datenintegration: dient dazu, die Daten aus verschiedenen Quellen zu optimieren, und ermöglicht die Konsolidierung von voneinander abweichenden Einträgen zu einem einzigen Stammdatensatz. Nach erfolgreicher Integration verfügt das Unternehmen über eine vollständige Sicht auf alle Daten zu einem Objekt.

4. Datenanreicherung: ergänzt Datensätze, um den Informationswert und die Nützlichkeit der Daten zu erhöhen. Dies kann beispielsweise durch von Partnern oder anderen Firmen beigetragene (Kunden-)Daten beziehungsweise durch Kombination mit Daten zum Kundenverhalten sowie durch die Verbindung zu externen Quellen geschehen.

5. Datenkontrolle: verschafft Unternehmen Kenntnis vom Zustand ihrer Daten, sodass sie die Ursachen für Datenqualitätsprobleme isolieren und korrigieren können. Zu den Ansätzen gehören unter anderem automatisierte Data Profiling Reports, die in regelmäßigen Abständen Analysen der Daten in Bezug auf Ausnahmen und nicht standardisierte Daten liefern. Bei einem hohen Anteil außergewöhnlicher Daten gibt es eine Meldung an den verantwortlichen Mitarbeiter. Dynamischer und effektiver ist die Durchsetzung von Geschäftsprozessregeln in Form von Web Services. Daten werden nach diesen Regeln in Echtzeit während der Eingabe oder auf ihrem Weg durch das Unternehmen überprüft.

Über den Autor:
Hans-Joachim Edert ist Senior Solutions Architect bei SAS Deutschland.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Oktober 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close