Getty Images/iStockphoto

Machine-Learning-Algorithmen verändern die Data Governance

Machine-Learning-Algorithmen können die Datenverarbeitung verändern. Doch es gibt auch Möglichkeiten, die Algorithmen mit Data Governance zu zähmen.

Als Rechtsanwalt in der FBI-Cyberabteilung verbrachte Andrew Burt viel Zeit damit, die Schnittstelle zwischen US-Sicherheit und Technologie zu untersuchen. Das bedeutete, dass er eine enorme Menge sensibler Daten betrachten musste. Als Chief Privacy Officer und Legal Engineer beim Start-up Immuta ist er heute dafür zuständig, Data Governance in Bereiche wie Machine Learning, künstliche Intelligenz (KI) und ähnliche Technologie zu bringen.

Machine-Learning-Algorithmen sind so etwas wie eine Blackbox für Data Governance, da die Technologie nicht unbedingt offenlegt, wie sie Entscheidungen getroffen hat. Im Gespräch wirft Burt etwas Licht auf diese Blackbox und erklärt die Bedeutung von Data Governance für Machine Learning und die Verarbeitung sensibler Daten im großen Maßstab.

Wie wird sich Data Governance verändern, wenn Entscheidungen auf der Grundlage von Machine-Learning-Algorithmen gefällt werden?

Andrew Burt: Das ist die milliardenschwere Frage. Die Herausforderung besteht darin, dass maschinelles Lernen zum ersten Mal in größerem Maßstab beginnt, einen bedeutenden Platz in der Entscheidungsfindung einzunehmen. Unternehmen setzen Technologien ein, um Entscheidungen so zu treffen, dass sie zumindest das Potenzial haben, den Menschen vollständig aus dem Entscheidungsprozess zu entfernen. Das hat einige Leute aufgeregt und auch erschreckt.

Das ist etwas Anderes, da es bei den alten Governance-Typen um Prozesse ging – darum, wer wann welche Daten gesehen hat. Das war das A und O des Daten-Managements. Dieses Modell geht davon aus, dass es immer noch einen Audit Trail gibt und man kann jemanden fragen, was passiert ist. Wenn maschinelles Lernen einen Teil dieses Entscheidungsfelds einnimmt, verlieren wir diese Fähigkeit. Governance beginnt nun tatsächlich zu beeinflussen, welche Arten von Entscheidungen getroffen werden können und welche Rechte die Subjekte der Entscheidungen haben.

Manche Leute fragen sich mittlerweile, ob Machine-Learning-Algorithmen nicht zu sehr einer Blackbox ähneln. Wie fangen wir an, künstliche Intelligenz zu regeln?

Burt: Tatsächlich gibt es eine Vielzahl von Möglichkeiten, wie wir den Prozess der Erstellung von Machine-Learning-Modellen aktiv steuern und überwachen können. Es ist keine binäre Wahl, entweder Machine-Learning-Modelle Amok laufen zu lassen oder die Governance so sehr zu stärken, dass es kein maschinelles Lernen gibt.

Es gibt drei Bereiche hierbei zu beachten. Sie haben die Daten, das Modell und die Entscheidungen. Es gibt Wege, wie man jeden dieser Bereiche regeln kann. Jeder einzelne hat eine Rolle dabei, Transparenz darüber zu geben, wie Machine-Learning-Modelle tatsächlich eingesetzt werden.

Der wichtigste Bereich ist das Verständnis der Daten, die zum Trainieren des Modells verwendet werden. Wenn Sie nicht damit beginnen, die Daten zu verstehen, können in den Modellen große Risiken stecken. Es gibt keinen besseren Weg, um Transparenz in Blackbox-Modellen zu schaffen als die Art der Daten darin tatsächlich zu verstehen. Das schließt alles ein, von dem Moment, an dem die Daten gesammelt wurden, das Messen möglicher Verzerrungen in den Daten selbst, das Beobachten der Aktivität, wenn sie extrahiert, transformiert und geladen werden, bis hin zum Moment, in dem sie in einem Modell verwendet werden.

Und was ist mit dem Machine-Learning-Modell selbst?

Burt: Dort finden Sie ein Spektrum, bei dem es einen Kompromiss zwischen der Rückverfolgbarkeit und der tatsächlichen Genauigkeit des Modells gibt. Es gibt einige Umstände, unter denen Governance-Belange ein gewisses Gewicht auf der Skala haben werden. Es kann Umstände geben, bei denen es ein gewisses Level an Interpretationen gibt, die wir nicht opfern können.

Historisch gesehen, hat in Bereichen wie dem Finanzsektor die Interpretierbarkeit Priorität. Tatsächlich haben sich die Data Scientists in diesem Bereich sehr stark auf Modelle wie lineare Regression gestützt, bei denen sie die Fähigkeit besitzen, sie wiederzugeben. Also dreht sich der zweite Bereich um die die Auswahl des Modells selbst.

Doch es wird Situationen geben, in denen die Modelle, die wir verwenden, buchstäblich eine Blackbox sind. Der dritte Bereich ist das eigentliche Ergebnis für die Entscheidung. Es gibt in der Tat einige technische Möglichkeiten, wo Sie das Niveau der Intransparenz in diesen Modellen reduzieren können. Eine davon ist LIME, was für Local Interpretable Model-agnostic Explanations steht. Dies ist im Grunde genommen dazu in der Lage, nach jeder Entscheidung den Grund, warum diese Entscheidung getroffen wurde, zu modellieren. Es isoliert die genauen Eigenschaften, die die Entscheidung vorangetrieben haben. Selbst angesichts der Blackbox-Algorithmen gibt es eine Ebene der nachträglichen oder rückwärts gerichteten Überprüfung für einige dieser Modelle.

Es scheint, das Immuta eine Plattform für differentielle Privatsphäre (Differential Privacy) innerhalb einer Organisation anstrebt. Spiegelt das die Tatsache wider, dass es heutzutage kein allgemeingültiges Modell für diese Daten gibt?

Burt: Differential Privacy hat bisher in der akademischen Forschung und bei den Technologie-Giganten stattgefunden. Wir haben versucht, die Implementierung und Bedienung so einfach wie möglich zu gestalten. Das bedeutet, dass Daten gemeinsam genutzt werden können und gleichzeitig ein mathematischer Schutz für die personenbezogenen Informationen innerhalb der Daten besteht. Dieses Konzept nennen wir die Personalisierung von Daten.

Andrew Burt, Immuta

„Es gibt einige technische Möglichkeiten, wo Sie das Niveau der Intransparenz in den Modellen reduzieren können. Eine ist LIME, was für Local Interpretable Model-agnostic Explanations steht.“

Andrew Burt, Immuta

Organisationen gehen davon aus, dass das, was sie benötigen, um ihre Data-Scientists-Programme zu beschleunigen, die Fähigkeit ist, jeden Benutzer nur die Daten sehen zu lassen, die sie in der richtigen Form für jeden entsprechenden Zweck sehen dürfen. Innerhalb jeder Organisation variiert also das Spektrum der Berechtigungen und Rechte sowie die Fähigkeit, Daten für verschiedene Zwecke nutzen zu dürfen.

Die Datenzugriffsmuster werden sich je nach Kontext ändern. Das bezieht sich sowohl auf die zugrunde liegende Speichertechnologie als auch auf Governance-Bedenken. Unterschiedliche Daten haben unterschiedliche Einschränkungen, und diese ändern sich laufend.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Machine Learning bietet Chancen und Herausforderungen.

Sapphire Now: SAP dringt mit Leonardo tiefer in maschinelles Lernen vor.

IT Security 2017: Datenpannen 3.0, Cyberversicherungen und Machine Learning.

Artikel wurde zuletzt im Dezember 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close