echiechi - Fotolia

Anwender setzen auf Tool-Mix für Big Data Analytics

Predictive Analytics, maschinelles Lernen und andere Analyseanwendungen helfen, aus Big Data einen Geschäftsnutzen zu generieren – doch der Aufwand ist hoch.

Vor etwa fünf Jahren implementierte der Einzelhändler Macy's ein Hadoop-Cluster. Davor hatte er große Probleme, alle Vertriebs- und Marketing-Daten zu analysieren, die seine Systeme generierten. Da Macy ein aggressives Marketing betrieb, um sein Online-Geschäft auszuweiten und parallel das Datenvolumen damit auch immer größer wurde, wurden die Schwierigkeiten mit der Zeit ebenfalls größer.

Die herkömmliche IT des Unternehmens war für die neuen Anforderungen nicht gerüstet. So hatte die traditionelle Data-Warehouse-Architektur schwer mit der Datenverarbeitung zu kämpfen und konnte nicht mit unstrukturierten Informationen umgehen. Historische Daten waren weitgehend unzugänglich, weil sie typischerweise auf Bändern archiviert wurden, die auf externen Storage-Anlagen gespeichert wurden.

Data Scientists und andere Analysten „konnten so zu bestimmten Tageszeiten nur eine begrenzte Anzahl von Abfragen ausführen“, sagt Seetha Chakrapany, Leiter Marketing Analytics und Customer Relationship Management bei Macy's. „Sie waren ziemlich eingeschränkt und konnten ihre Arbeit nicht erledigen.“

Das Hadoop-System hat die kritische Situation bereinigt. Es bietet eine Big-Data-Analytics-Architektur, die auch grundlegende Business-Intelligence- und Reporting-Prozesse unterstützt. Künftig könnte das Cluster für Macy's „wirklich eine Enterprise-Datenanalyseplattform sein“, erklärt Chakrapany. Neben mit seinem Analytics-Team greifen Tausende von Geschäftskunden in Marketing, Merchandising, Produkt-Management und anderen Abteilungen auf Hunderte von BI-Dashboards zu, die vom System mit Daten versorgt werden.

Aber es gibt für die Big-Data-Umgebung von Macy's noch viel mehr als nur den Hadoop-Cluster. Im Frontend setzt Macy's zum Beispiel eine Vielzahl von Analysewerkzeugen ein, um unterschiedliche Anwenderbedürfnisse zu erfüllen. Für die statistische Analyse verwendet der Händler SAS und Microsoft R Server, der auf der statistischen Open-Source-Programmiersprache R basiert.

Mehrere andere Werkzeuge ermöglichen Predictive Analytics, Data Mining und Machine Learning. Dazu gehören H2O, der Salford Predictive Modeler, die Open Source Machine-Learning-Plattform Apache Mahout und KXEN. Letzteres ist eine Analytics-Technologie, die SAP 2013 übernommen hat und in SAP Predictive Analytics integriert wurde. Ebenfalls genutzt werden bei Macy's die Datenvisualisierungswerkzeuge von Tableau Software und die BI-on-Hadoop-Software von AtScale.

Große Datenmengen analysieren

„Die verschiedenen Werkzeuge sind alle Schlüsselelemente, mit denen die Big-Data-Analytics-Architektur effektiv genutzt werden kann“, erläutert Chakrapany. Die Automatisierung von anspruchsvollen Analytics-Prozessen durch statistische Prozeduren und Machine Learning ist seiner Ansicht nach ein Muss.

„Wir probieren ständig neue Dinge aus. Aber wegen des immensen Datenvolumens ist es schlicht unmöglich, die Daten manuell zu analysieren“, sagt der Analytics-Experte. „Deshalb wenden wir alle möglichen statistischen Algorithmen an, mit deren Hilfe wir erkennen können, was in unserem Business gerade passiert.“ Dazu gehören die Analyse von Kunden-, Auftrags-, Produkt- und Marketing-Daten sowie Clickstream-Aktivitätsaufzeichnungen, die von der Website erfasst werden.

Ähnliche Szenarien spielen sich immer häufiger auch bei anderen Organisationen ab. Weil Big-Data-Plattformen wie Hadoop, NoSQL-Datenbanken und die Processing Engine Apache Spark inzwischen weit verbreitet sind, steigt auch die Anzahl der Unternehmen, die fortschrittliche Analytics-Werkzeuge einsetzen. Sie können ihnen helfen, die Daten auszuwerten, die in diese Systeme fließen, und einen Business-Nutzen daraus zu generieren.

In einer TechTarget-Umfrage zur Verwendung von BI- und Analytics-Software sagten im November 2016 26,7 Prozent der etwa 7.000 Befragten, dass ihre Organisation Predictive-Analytics-Werkzeuge installiert haben. Bei künftigen Investitionen stellten die Befragten Predictive Analytics auf die höchste Stufe noch vor Datenvisualisierung, Self-Service-BI und Enterprise Reporting – alles weitere Mainstream-BI-Technologien.

Eine TDWI-Umfrage berichtet ebenfalls verstärkt von Plänen, Predictive-Analytics-Software zu verwenden, um den Geschäftsbetrieb zu optimieren. In der Umfrage sagten 87 Prozent der 309 befragten BI-, Analytics- und Daten-Management-Fachleute, dass ihre Organisation bereits aktive Nutzer der Technologien seien oder sie diese innerhalb der nächsten drei Jahren voraussichtlich einsetzen. Andere Formen von Advanced Analytics – zum Beispiel Was-wäre-wenn-Analysen und Prescriptive Analytics – werden laut der Studie ebenfalls verstärkt genutzt.

Algorithmen finden Informationen in Datensätzen

Werkzeuge für Machine Learning und andere Technologien für künstliche Intelligenz – wie Deep Learning und Cognitive Computing – rücken ebenfalls ins Blickfeld von Technologienutzern und -verkäufern. Diese Nutzer versuchen Analytics-Teams mit automatisierten Algorithmen zu unterstützen und ihnen so zu helfen, den immer umfangreicheren Datensätzen relevante Informationen zu entziehen und ihnen einen Sinn zu geben.

Progressive Casualty Insurance ist ein Unternehmen, das solche Tools bereits nutzt. Der Versicherer verwendet ein Hadoop-Cluster, um teilweise sein Snapshot-Programm zu managen. Das Programm gewährt sicheren Fahrern Rabatte bei ihren Versicherungsgebühren. Hadoop wertet dabei über ein Gerät, das in einem On-Board-Diagnostik-Port steckt, die Betriebsdaten aus, die von den Fahrzeugen gesammelt werden.

Der Cluster basiert auf der Hortonworks-Distribution von Hadoop, die auch von Macy's verwendet wird. Über 60 Compute-Knoten werden für die Snapshot-Initiative eingesetzt. Die anspruchsvolle Big-Data-Analytics-Architektur von Progressive umfasst Tools wie SAS, R und H2O, die die Data Scientists des Unternehmens für die Analyse der im Hadoop-System verarbeiteten Fahrzeugdaten verwenden.

Die Data Scientists führen prädiktive Analysen durch, die durch robuste Datenvisualisierungen unterstützt werden. So möchten sie den Teilnehmern helfen, ihre Fahrsicherheit zu verbessern. Sie suchen auch nach schlechten Fahrgewohnheiten und möglichen mechanischen Problemen in den Fahrzeugen. Dazu gehören zum Beispiel Probleme mit dem Wechselstromgenerator, die durch abnormale Spannungsschwankungen signalisiert werden.

„Das Leistungsvermögen von Predictive Analytics und Machine Learning ist riesig“, sagt Pawan Divakarla, Data and Analytics Business Leader bei Progressive. „Wir haben so viele Daten und immer raffiniertere Modelle, um diese zu analysieren. Deshalb brauchen wir jemanden, der uns hilft, um zu sehen, was man machen kann.“

Tiefer in Big Data Analytics eintauchen

Yahoo war im Jahr 2006 das erste Unternehmen, das Hadoop im produktiven Betrieb einsetzte. Zu dieser Zeit arbeitete der Mit-Schöpfer der Technologie, Doug Cutting, bei Yahoo. Die Big Data Analytics-Architektur von Yahoo umfasst mehr als 40.000 Knoten, auf denen 300 Clients und 40 Cluster laufen, die Hadoop mit der Apache-HBase-Datenbank, der Apache Storm Echtzeit-Verarbeitungs-Engine und anderen Big-Data-Technologien mischt. Aber das im kalifornischen Sunnyvale beheimatete Unternehmen will die Technologien auch in neuen Bereichen einsetzen.

„Auch nach zehn Jahren entdecken wir immer noch Neues“, sagt Andy Feng, Vice President und verantwortlich für die Big-Data- und Machine-Learning-Architektur. Feng schätzt, dass er in den vergangenen drei Jahren etwa 95 Prozent seiner Arbeitszeit mit Machine-Learning-Tools und -Anwendungen verbracht hat. In der Vergangenheit waren die automatisierten Algorithmen, die mit den damals vorhandenen Machine-Learning-Technologien gebaut und betrieben werden, „nicht in der Lage, die riesigen Datenmengen auf den Hadoop-Clustern zu nutzen“, erklärt Feng. „Die Genauigkeit war nicht gut.“

„Wir haben schon immer Machine Learning eingesetzt. Aber früher haben wir das nur sehr eingeschränkt gemacht, so dass auch die Ergebnisse nur von begrenztem Wert waren“, fügt Sumeet Singh, Senior Director Product Development for Cloud und Big Data Plattformen bei Yahoo hinzu. Allerdings verweisen er und Feng auch darauf, dass sich die Dinge in den letzten Jahren zum Besseren gewandelt haben. „Wir haben eine erstaunliche Wiedergeburt der künstlichen Intelligenz und des Machine Learnings gesehen – und einer der Gründe dafür sind die vielen Daten“, sagt Singh.

Aktuell setzt Yahoo zum Beispiel einen Machine-Learning-Algorithmus ein, der auf einen semantischen Analyseprozess setzt. Damit können die gezahlten Anzeigen auf den Seiten der Suchergebnisse besser den von Webbenutzern eingegebenen Suchbegriffen zugeordnet werden. Das hat laut Feng zu einem Anstieg der Einnahmen pro Suche von neun Prozent geführt.

Eine andere Machine-Learning-Anwendung ermöglicht es Benutzern des Online-Foto- und Video-Service Flickr, Bilder anhand ihres visuellen Inhalts zu organisieren, anstelle des Datums, an dem sie aufgenommen wurden. Der Algorithmus kann auch Fotos für die Anzeige bei der Arbeit als nicht geeignet markieren, um Benutzer im Büro nicht in potenziell peinliche Situationen zu bringen, sagt Feng.

Diese neuen Anwendungen wurden teilweise durch die Hinzunahme von Grafikprozessoren (GPU) zum Hadoop-Cluster ermöglicht. Feng sagt, dass die GPUs Bildverarbeitung in einer Weise erledigen, die herkömmliche CPUs nicht erreichen. Auch Spark hat Yahoo zu seiner Big-Data-Analytics-Architektur hinzugefügt, um einige anspruchsvollere Arbeiten zu übernehmen.

Darüber hinaus setzt Yahoo MLlib ein, die integrierte Spark-Bibliothek für Machine-Learning-Algorithmen. Allerdings erwiesen sich diese Algorithmen als zu einfach, sagt Singh. Das veranlasste das Big-Data-Team, CaffeOnSpark zu entwickeln, eine Bibliothek von Deep-Learning-Algorithmen, die Yahoo als Open-Source-Technologie auf der GitHub-Website zur Verfügung gestellt hat.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Eine Bestandsaufnahme der Big Data Analytics Tools.

Kostenloser E-Guide: Tipps und Tricks für Big Data Analytics.

Big Data und Digitalisierung: Warum Algorithmen so entscheidend sind.

Artikel wurde zuletzt im November 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über BI-Management

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close