animind - Fotolia

Trifacta Wrangler: Hadoop-Datenaufbereitung für Business-Anwender

Trifacta bietet mit seinen Wrangler-Produkten Tools zur Aufbereitung von Enterprise-Daten. Seit 2015 hat Trifacta auch eine Niederlassung in Berlin.

Der stetig wachsende Datenberg bremst viele Unternehmen bei der Datenauswertung aus. Die Organisationen sammeln Daten aus unterschiedlichen Quellen, müssen aber entdecken, dass die Daten unstrukturiert und für die Analyse unbrauchbar sind.

Die Rohdaten müssen aufwendig strukturiert werden, wofür die Organisationen kostspielige Anwendungen und Datenanalysten benötigen. Trifacta setzt hier an und vertreibt seit 2014 eine Anwendung, die die Aufbereitung der Daten übernimmt. Das Verfahren wird Data Wrangling genannt.

Was Data Wrangling ist, an wen sich die Lösung von Trifacta richtet und welchen Stellenwert der deutsche Standort für das in San Francisco beheimatete Unternehmen hat, erläutert Bernard Doering, Vice President Sales Central Europe bei Trifacta, im Gespräch mit TechTarget.

Herr Doering, Trifacta bietet eine Daten-Management-Lösung, die Unternehmen bei der Strukturierung ihrer Daten hilft. Sie nennen das entwickelte Verfahren Data Wrangling. Wie funktioniert Data Wrangling?

Bernard Doering: Data Wrangling bedeutet, komplexe Datentypen und Datenformate in strukturierte Daten zu verwandeln, ohne programmieren zu müssen. Mit anderen Worten, Endanwender können ihre Daten aufbereiten und transformieren, ohne mit einem ETL-Programm oder sonstigen Programmiersprachen, wie zum Beispiel SQL oder Python, programmieren zu können oder zu müssen.

Diese Transformationen werden automatisch nach dem Einlesen der Daten auf Basis von Machine-Learning-Algorithmen vorgeschlagen, die diesen Prozess erheblich beschleunigen. Ziel ist es, mithilfe der Data-Wrangling-Software, Zeit, den menschlichen Aufwand, sowie die Kosten stark zu reduzieren und somit die Zeit für tatsächliche Datenanalysen deutlich zu erhöhen. Somit wird ein enormer Mehrwert schnell realisiert.

Richtet sich Trifacta mit seiner Anwendung an Data Scientists oder Business-Anwender?

Doering: An erster Stelle müssen Business-Anwender der Fachabteilungen nicht mehr lange auf ihre Daten warten. Sie können auch mit komplexen Urdaten, wie zum Beispiel Weblogs, Textdateien von Chatbots, Blogs, Maschinen- oder Serverlog-Dateien arbeiten, sie transformieren und integrieren und dann auswerten, ohne auf IT Kräfte warten zu müssen. Die Firma realisiert schneller einen ROI.

Data Scientists und Data Analysts profitieren, indem sie mit unkomprimierten Urdaten arbeiten können, also nicht mit gereinigten Daten. Nur so können Data Scientists ihre Hypothesen richtig testen und belegen. Ein weiterer Vorteil für Data Scientists ist, dass sie nicht programmieren müssen, sondern schneller einen Mehrwert für die Firma mit Analysen generieren können. Die teure Zeit eines Data Scientists ist zu schade, um sie mit Kodierung zu verbringen. Trifacta bietet hier einen Mehrwert für IT, Analysten und Fachabteilung.

Welche Versionen stellt Trifacta zur Verfügung?

Die Tools richten sich in erster Linie an Enterprise-Kunden, da Trifacta Wrangler für Datenvolumina im Terabyte-Bereich entwickelt ist. Aktuell sind die Anwendungen als On-Premise-Software verfügbar. Über die Kooperation mit Google ist die Lösung als Cloud-Anwendung (Google Cloud Dataprep) erhältlich. Weitere Cloud-Versionen für AWS und Microsoft Azure sollen folgen.

Trifacta bietet drei Versionen seiner Lösung an. Wrangler kann von kleinen Unternehmen auf einem einzelnen Desktop-Rechner getestet und eingesetzt werden. Es bietet grundlegende Funktionen und unterstützt die Verbindung zu gängigen Dateiformaten. Wrangler Edge richtet sich an Teams und kann von mehreren Anwendern genutzt werden. Es unterstützt den Server- und MapReduce-Einsatz und unterstützt die erweiterte Verbindung zu Cloud Storage, Amazon Redshift und RDBMS.

Wrangler Enterprise bietet Data Wrangling für eine unbegrenzte Anzahl von Business-Anwendern. Die Version unterstützt zusätzlich Spark und die Verbindung zu HDFS und Hive. Eine komplette Übersicht aller Versionen und Funktionen gibt es auf der Website von Trifacta.

Trifacta hat in den letzten Wochen Kooperationen unter anderem mit Google und Alation bekanntgegeben. Können Sie uns erläutern, wie diese Partnerschaften aussehen?

Doering: Trifacta unterhält viele wichtige Partnerschaften für Big-Data-Anwendungen, zum Beispiel mit Hadoop-Anbietern für die Datenhaltung und skalierbaren Compute-Möglichkeiten. Dann natürlich mit Cloud-Anbietern, damit Kunden entweder On-Premise bei sich oder in der Cloud arbeiten können, wie zum Beispiel mit Google. Google bietet jetzt Google Cloud Dataprep auf der Google Cloud Platform an und Trifacta hat diese Dataprep-Software mit und für Google entwickelt. Dazu hat das Team von Trifacta-Entwicklern in Berlin maßgeblich beigetragen.

Partnerschaften, wie zum Beispiel mit Alation, entstehen, weil Kunden in dem Hadoop-Umfeld eine bessere Datenverwaltung brauchen und deshalb auf dem HDFS Hadoop-Datenhaltungssystem Cataloging-Software wie Alation einsetzen, um die Metadaten zu verwalten. Die Kombination von Trifacta und Alation auf Hadoop bringen einen Mehrwert für Unternehmen, die zentrale Datenhaltung im Data Lake realisieren.

Trifacta ist seit Ende 2015 auch in Deutschland mit einer Niederlassung in Berlin vertreten. Welche strategische Bedeutung hat der deutsche Markt für ihr Unternehmen?

Doering: Der deutsche IT-Markt ist extrem bedeutsam, auch für Trifacta. Hadoop Data Lakes werden jetzt in Deutschland bei den Automobilherstellern, Versicherungsfirmen, Banken, Pharma- und Industrieunternehmen angelegt. Diese beinhalten auch viele unstrukturierte Daten, wie zum Beispiel von Telematics, Connected Cars, Maschinen-Logs, Weblogs. Um diese Datenformate schnell nützlich zu machen, braucht man eine Data-Wrangling-Software wie Trifacta.  

In Berlin ist es außerdem für uns einfacher, erfahrene und talentierte Entwickler aus ganz Europa zu rekrutieren. San Francisco ist teuer und hat neue Visa-Beschränkungen, die wir in Berlin für Entwickler nicht haben. Berlin ist beliebt als Wohnort und die Leute arbeiten gerne bei einem innovativen Start-up wie Trifacta.

Können Sie uns Kunden und Anwendungsfälle in Deutschland nennen?

Doering: In Deutschland und der Schweiz hat Trifacta Kunden im Finanzsektor, in der Pharma-Industrie, im IT-Dienstleistungssektor und in der Fertigungsindustrie. Häufig muss man bei Anwendungsfällen auf externen Datenquellen zugreifen. Diese Daten sind nicht im internen ERP-System und nicht in den gängigen Datenbanken zu finden. Die Kunden müssen sie importieren, strukturieren und dann in die Bestandsdaten integrieren, um neue Produkte oder Dienstleistungen zu erzeugen und somit auch konkurrenzfähig zu bleiben.

„In Berlin ist es für uns einfacher, erfahrene und talentierte Entwickler aus ganz Europa zu rekrutieren.“

Bernard Doering, Trifacta

Ein Beispiel sind Autoversicherungsprämien, die sich an Fahrstil und Route des Fahrers orientieren. Oder Geräte, die ferngewartet und kalibriert werden, ohne dass ein Techniker erscheinen muss. Diese Dienstleistungen erbringen einen Mehrwert für die Kunden und erhöhen die Konkurrenzfähigkeit der Hersteller. Um weiter international konkurrenzfähig zu bleiben, müssen Firmen in Deutschland hier investieren. Wenn ein Mehrwert generiert wird, ist der Kunde auch bereit, mitzumachen.

Was macht Trifacta?

Trifacta entstand 2012 aus einem Gemeinschaftsprojekt von Joe Hellerstein, Professor an der University of California (Berkeley) und CSO; Jeffrey Heer, ehemaliger Professor an der Stanford Universität und CXO; sowie Sean Kandel, CTO von Trifacta. Adam Wilson führt als CEO das Unternehmen.

Innerhalb des Projekts wurde eine Daten-Management- und Datenaufbereitungs-Lösung entwickelt, die das Data Wrangling der Daten übernimmt. Die Lösung wird als Trifacta Wrangler vertrieben. Data Wrangling ist eine Technik zur Datenaufbereitung komplexer und unstrukturierter Daten, um sie in strukturierte Formate umzuwandeln (siehe Video). Data Wrangling mit Trifacta Wrangler umfasst sechs Schritte: ermitteln, strukturieren, bereinigen, erweitern, validieren und publizieren.

Die Daten selbst sind auf einem Hadoop-Cluster gespeichert, wobei Trifacta bei den Hadoop-Distributionen neutral ist. Nach Ansicht der Trifacta-Gründer liegt in Hadoop die Zukunft der Datenverarbeitung. Daher konzentriert sich das Unternehmen aktuell auf die Technologie. In Zukunft sollen auch verschiedene relationale Datenbanken unterstützt werden.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im März 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close