Analytische Modelle für Big Data mit Stichproben übersichtlich gestalten

Für das Erstellen analytischer Modelle sind Stichproben völlig ausreichend. Gleichzeitig sollten Firmen viele Daten für Predictive Analytics sammeln.

Big-Data-Umgebungen stellen große Mengen an Informationen bereit, die Datenanalyse-Profis auswerten können. In...

den meisten Fällen empfiehlt sich bei der Datenmodellierung für Big-Data-Anwendungen jedoch eine Faustregel: Denken Sie in kleinen Dimensionen.

Wenn Sie große Datenreservoires haben, in die sie eintauchen möchten, ändert das nichts an den grundlegenden Punkten bei der Datenmodellierung für Predictive Analytics und Data Mining, sagt Michael Berry, Analytics-Verantwortlicher bei der Reise-Website TripAdvisor. In seiner Keynote auf der Predictive Analytics World in Boston 2013 betonte Berry, dass sich Muster und Beziehungen, die in Big-Data-Sets versteckt sind, finden lassen, indem man repräsentative Stichproben nimmt, statt den kompletten Datenberg zu durchkämmen.

„Ich neige nicht dazu, sehr viele Daten [in analytischen Modellen] einzusetzen“, erklärte Berry. „Muster lassen sich ziemlich schnell finden. Wenn man genug Daten hat, um Muster zu erkennen, ändert sich das Ergebnis nicht, nur weil man noch mehr Daten hinzufügt.“ Zudem sagt Berry, dass er meist bessere Antworten auf analytische Anfragen erhalte, „wenn ich weniger Daten in weniger Zeit betrachten als wenn ich mehr Zeit für mehr Daten aufwände.“

„Stichproben sind ein effektiver Weg“, stimmt Karl Rexer, Präsident des Beratungshauses Rexer Analytics, zu. Bei der Entwicklung analytischer Modelle für die Vorhersage potenzieller Kundenfluktuationen haben Analytics-Mitarbeiter in großen Unternehmen Zugang zu Millionen Kundendaten. „Braucht man diese Daten aber überhaupt? In vielen Fällen lautet die Antwort: nein“, ist sich Rexer sicher.

Kleine Stichproben erzielen große Ergebnisse

Tony Rathburn, Senior Consultant und Schulungsleiter bei The Modeling Agency, beginnt in der Regel nur mit rund 5000 Datensätzen, wenn er Vorhersagemodelle für Kunden erstellt - auch wenn er viel mehr Informationen zur Verfügung hat. Um das Kundenverhalten oder andere Parameter zu analysieren, müssen die meisten Predictive-Analytics-Anwendungen nicht sehr umfangreich sein, erklärt Rathburn. Eine gut gewählter Satz von Daten kann Sie zum Ziel führen, fügt er hinzu. Wirft man mehr Daten in das Analytics-Modell, ohne auf die Stichprobe zu achten, kann es allerdings ungenauer werden.

Der Storage-Anbieter NetApp sammelt automatisch Leistungsdaten seiner Produkte beim Kunden. Über ein Petabyte Daten werden in einem Hadoop-Cluster gespeichert. „Pro Woche kommen ein Terabyte durch Sensoren aufgezeichnete Information hinzu“, erläutert Shiv Patil, Senior Data-Warehouse-Architekt und Business Analyst beim AutoSupport-Team des Storage-Spezialisten. Patil und seine Kollegen nutzen diese Daten, um Geräteausfälle vorherzusagen, bevor sie passieren. Damit sollen Ausfälle und Störungen beim Kunden vermieden werden.

Das AutoSupport-Team erstellt seine Vorhersagemodelle auf Basis von Beispieldatensätzen und nicht der gesamten Datenmenge. Um Muster zu erkennen „müssen wir nicht alle Daten analysieren“, sagt Patil. Das Erstellen von validen Proben bedeutet zwar einigen Aufwand – doch sobald alles richtig justiert ist, ergänzt er, „ist das Hinzufügen neuer Daten unnötig.“

Nicht alle Big-Data-Analytics-Anwendungen lassen sich mit Stichproben nutzen. Zum Beispiel ist das Uplift-Modell eine Form von Predictive Analytics, das nach Kunden für ein Produkt sucht, die es wahrscheinlich kaufen und die mit gezielten Marketing-Kampagnen adressiert werden. Dabei möchte man Kunden, die bereits eine Entscheidung getroffen haben, von der Kampagne ausschliessen. Die Medienagentur Carmichael Lynch nutzt beispielsweise einen automatisierten Analysedienst, der von der Werbe-Plattform Rocket Fuel entwickelt wurde und Millionen Autohändler-Transaktionen und andere Datensätze analysiert, um ein Uplift-Modell-Programm für Subaru auszuführen.

Befüllen Sie es mit den richtigen Daten

Das analytische Modell von Rocket Fuel analysiert mögliche Subaru-Kunden auf der Grundlage von über 300.000 verschiedenen Variablen, die es täglich untersucht – von Postleitzahlen und Web-Aktivitäten bis zu anderen Faktoren, wie zum Beispiel Geschlecht und lokale Wettermuster. „Ich weiß nicht, ob ich zustimmen kann, dass es jemals einen Sättigungspunkt gibt, an dem man genug Daten hat“ , sagt Peter Amstutz, Analytics-Stratege bei Carmichael Lynch, nach der Präsentation des Subaru-Programms auf der Predictive Analytics World. „Vielleicht gibt es noch eine andere Variable , die bei der Vorhersage hilft.“

Trotz seines Rates, einen Ansatz mit einer überschaubaren Datenmenge für die Plannung und Erstellung eines analytischen Modells zu verfolgen, sei es laut Rathburn sinnvoll, eine große Auswahl an Big Data zu haben. „Das ist vergleichbar mit einer Bibliothek“, erläutert er. „Man liest nicht alle Bücher, aber man benötigt einen Zugang zu unterschiedlichen Büchern zu verschiedenen Zeiten.“

Der Zugang zu einer Sammlung von Big Data kann den Bereich der analytischen Modellierung erweitern, selbst wenn Stichproben zum Einsatz kommen, sagt Dean Abbott, Präsident des Beratungsunternehmens Abbott Analytics. Zum Beispiel lassen sich Bevölkerungsdaten in kleine geografische Regionen für die Modellierung einteilen. Somit entstehen mehr Datensätze, die dabei helfen, unbrauchbare von validen statischen Stichproben zu trennen. „Damit lassen sich komplexere Modelle bauen, die letztlich zuverlässiger sind“, sagt Abbott abschließend.

Artikel wurde zuletzt im Februar 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close