Datentransformations -Tools kratzen nur an der Oberfläche

Moderne BI-Tools lassen Anwender auf neue Weise Daten interagieren und visualisieren. Doch ist das erst der Anfang einer neuen Entwicklung.

Software für Datentransformation, Datenvisualisierung und Business Intelligence (BI) erleben derzeit große Veränderungen, auch wenn es so scheint, als hätte sich in den letzten 15 Jahren nicht viel getan.

Die Änderungen sind aber noch am Anfang. Sie werden von Probleme angetrieben, die durch IT-Agilität, Datenqualität und fehlender Transparenz der Systeme entstehen. Wir bewegen uns auf schnellere visuelle Interaktionen der Daten zu. Dabei kratzen wir derzeit aber nur an der Oberfläche. 

Wir verstehen noch nicht, wie die Daten interagieren, welche Auswirkung sie auf ein Geschäft haben, welche Veränderungen daraus resultieren und wie wir unsere Informationssysteme strukturieren. In den folgenden Absätzen lege ich dar, was sich derzeit ändert, was wir in den nächsten Jahren erwarten können und leite daraus ab, wohin die Reise geht.

Der BI-Markt heute

In den aktuellen Softwareprodukten sind Datentransformations-Funktionen wie das Kombinieren, Filtern und Festlegen der Daten strikt von Datenvisualisierungs- und Analyse-Funktionen getrennt. Die Umwandlung oder Änderung von Daten ist in der Regel für technische Mitarbeiter, prozessorientierte Tools (zum Beispiel SAP Data Services und SAP Business Warehouse (BW)) und Standard-Programmiersprachen (zum Beispiel Java und Python) reserviert.

Der Output der Transformations-Tools (überlicherweise in Form statischer Datenbank-Tabellen) ist der Input für seperate Datenanalysen und Visualisierungen. Tools wie SAP Crystal Reports erlauben es Anwendern, vordefinierte Abfragen auszuführen, um eine einzige aggregierte Schicht einer Datenbank zu illustrieren. 

Man kann nicht wirklich wissen, wie man einen Datensatz umwandelt, ohne ihn zu verstehen.

Fortschrittlichere Datenanalyse-Tools ermöglichen es den Nutzern außerdem, flexibel innerhalb der Grenzen bereits bestehender Datensätze zu navigieren. Diese Tools sind in der Regel auch analytische Tools (SAP Analysis for Office oder Design Studio Dashboards). Es gibt daher keinen Grund, warum diese flexiblen Anwendungen und Analysen nicht für einen Geschäftsprozess nützlich sein können.

Einige Tools, die in der Regel als Self-Service BI oder für die Datenexploration deklariert sind, bieten grundlegende Datenaufbereitungs-Funktionen. Hierfür nutzen sie meist eine Prozess- oder Programmierungs-basierte Ansicht der Datenaufbereitungsphase. Tableau Software und QlikView sind zwei Pioniere für diesen Ansatz. 

Sie bieten fortschrittliche Datenvisualisierungs-Funktionen auf einer Plattform, auf der Anwender selbst für alle Datenlade- und Vorbereitsungsaufgaben verantwortlich sind. SAP Lumira folgt diesem Ansatz und bietet Nutzern eine Möglichkeit, um neue Daten zu laden, mit existierenden Datensätzen zu verbinden oder einige Datensätze zu kombinieren, so dass sie sich visualisieren lassen.

Die strikte Trennung von Visualisierungs- und Analyse-Prozessen von der Datentransformation ist allerdings die große Schwäche der vorhandenen Tools. Wann realisieren die Anwender, dass es ein Problem mit den Daten gibt? Wahrscheinlich, wenn sie es visualisieren oder analytische Funktionen damit ausführen.

Was kommt als nächstes?

Ein anderer Ansatz zur Datentransformation, der näher an der tatsächlichen Struktur der Daten ausgerichtet ist, entwickelt sich derzeit als eine beliebte Alternative. Dieser teilt mit dem prozessorientierten Ansatz der Datentransformation, dass er sich an der internen Struktur der Datenverarbeitung orientiert. 

Der Ansatz stellt auch sehr große Datensätze als Tabellen dar und bietet dem Anwender Datentransformations-Optionen, die in der Tabelle abgebildet werden. Das ist zwar kein neuer Ansatz, aber die Tools (Open Refine, Data Wrangler, IBM BigSheets) waren die ersten, mit denen sich umfassende Erkenntnisse gewinnen lassen.

Die Idee dahinter ist, dass Tabellen eine direkte visuelle Darstellung der rohen Struktur von Standard-Datenformaten bieten. Zeigt man eine Datenbank-Tabelle in einem Tabellenformat, verdeutlicht das die Struktur der Daten. Mit den angemessenen Tools können die Daten und deren Struktur in einer Weise manipuliert werden, die sofort in der Tabellenansicht sichtbar ist und wieder dem ursprünglichen Datensatz zugeordnet werden kann.

Es scheint, als ob Tabellen-basierte Datentransformation langlebig ist und Auftrieb in Form von OpenRefine sowie Aufmersamkeit durch Produkte wie Trifacta und Spark Cloud erhält. Dieser Ansatz gleicht den Mangel von analytischen beziehungsweise Visualisierungs-Tools in Datentransformationsprozessen aus und bietet Anwendern verarbeitete Daten, so dass sie diese besser verstehen, wenn sie sie verändern. Allerdings bleiben Anwendungen für tiefe Analysen und spezialisierte Visualisierungs-Tools weiterhin getrennt.

Die Zukunft

Der aktuelle Trend ist, Datentransformation als eine visuelle Erfahrung zu gestalten, so dass das Ergebnis der Datenumwandlung im Datensatz selbst deutlich wird und umittelbar verfügbar ist. Das Extrahieren von Bedeutungen aus den Daten bleibt aber spezialisierten Schnittstellen überlassen, die in der Regel auf aggregierten Schichten des vollständigen Datensatzes arbeiten und visuelle Abstraktionen in Form von Diagrammen und Grafiken bieten.

Allerdings besteht darin auch ein Problem: Wie bereits erwähnt, ist das Verstehen der Daten und Extrahieren von Bedeutungen ein integraler Teil der Datentransformation. Man kann nicht wirklich wissen, wie man einen Datensatz umwandelt, ohne ihn zu verstehen. 

Es kommt häufig vor, dass man beim Extrahieren von Bedeutungen aus den Daten auf das Problem stoßt, dass die Daten unvollständig sind und mit einem anderen Datensatz ergänzt werden müssen. Mit anderen Worten: der Prozess der Visualisierung ist genau der Punkt an dem man in der Lage sein möchte, die zugrunde liegenden Daten zu ändern, allerdings hält uns das verwendete Tool davon ab.

In den nächsten fünf bis zehn Jahren wird dieses Problem gelöst, indem mehr Anwendungen das Bearbeiten und Anreichern von Daten über die Visualisierungsoberfläche erlauben. Derzeit gibt es einige Forschungsanstrengungen hierzu, einschließlich des Forschungsprojekts Palladio, an dem ich als Chefentwickler mitarbeite.

In einem gewissen Sinn sind Produkte, die auf dem Tabellen-Paradigma basieren, die ersten Massenmarkt-Implementierungen dieses Ansatzes. Diese und ähnliche Produkte werden wahrscheinlich ihre Visualisierungs-Funktionen weiterentwickeln, so dass sich die Daten während der Visualisierung ändern lassen. Wenn die Visualisierungs-orientierten Anbieter aufmerksam sind, werden sie auch Datenmanipulations-Funktionen in ihre Tools integrieren. Es wird spannend sein zu sehen, wer diese Lücke am schnellsten und umfassendsten schließt.

Folgen Sie SearchEnterpriseSoftware.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Oktober 2014 aktualisiert

Erfahren Sie mehr über BI-Technologie

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close