Big-Data-Analytics: Einsatzszenarien für die (IT-) Security

Unternehmen können mit Big-Data-Analysen aus einer Unmenge von unstrukturierten Daten wertvolle Erkenntnisse über ihre Risiken herausfiltern.

Der Bombenanschlag auf den Marathonlauf in Boston im April 2013 ist ein trauriges Beispiel für das Scheitern von...

Big-Data-Analytics im Zusammenhang mit Sicherheit. Damals waren die Geheimdienste nicht in der Lage, die einzelnen Punkte und Indizien vor und nach dem Attentat zu verknüpfen und richtig auszuwerten.

Diese Mängel sind zum Beispiel begründet in fehlendem oder unzureichendem Informationsaustausch innerhalb von Organisationen oder Fachabteilungen. Häufig wissen die beteiligten Personen nicht, dass bestimmte Datensätze überhaupt existieren. Big-Data-Analytics könnte dieses Dilemma lösen, so die Befürworter, da sie verdächtige Muster und potenzielle Bedrohungen erfassen kann, indem man die Definition von Sicherheitsdaten auf alle Teile einer Organisation erweitert.

Auf Big-Data-Analytics basierende IT-Sicherheit könnte in den nächsten Jahren zu Umwälzungen im Marktsegment der IT-Sicherheitslösungen führen. „Seitdem Big-Data-Lösungen verfügbar sind, hat sich unsere Angriffsfläche verändert und erweitert, unsere Risiken haben sich in bisher ungeahnter Weise vergrößert“, sagt Arthur Coviello Jr., Executive Vice President von EMC und Chairman der RSA Security Division.

Es stehen jetzt die Technologien zur Verfügung, um tiefere Einblicke in von Maschinen oder Nutzern generierte Daten zu gewinnen.

Mark Seward, Senior Director für Sicherheit und Compliance, Splunk

Unternehmen und ihre Mitarbeiter agieren zunehmend mobil, im Internet oder in Social-Media-Umgebungen. Hier können sie über Big-Data-Analysen aus einer Unmenge von Datensätzen – darunter auch unstrukturierte Daten aus Facebook & Co. sowie Bildern, Audio-Dateien oder Videos – Muster und Informationen herausfiltern, die wertvolle Erkenntnisse über die Risiken im Unternehmen geben, auch über die IT hinaus. 

Trotz des Einsatzes moderner statistischer Modelle und Predictive Analytics können unbekannte Bedrohungen unentdeckt bleiben. Erhöhen Big Data und Hochleistungsanalytik nun aber wirklich die Sicherheit? Vielleicht, aber die sinnvolle Nutzung von Big-Data-Technologien zur Analyse großer Datenmengen für höhere IT-Sicherheit sei selten und sehr anspruchsvoll, sagt Anton Chuvakin, Research Director für Sicherheits- und Risikomanagement bei Gartner.

Gartner definiert Big Data auf der Grundlage der drei Vs – Volume (Umfang), Variety (Vielfalt) und Velocity (Geschwindigkeit). 

„Unternehmen, die tatsächlich über Jahre Zeit und oft Millionen US-Dollar in den Aufbau einer eigenen Sicherheits-Plattform auf Basis von Big-Data-Analytics investiert haben, profitieren mittlerweile von dieser Leistung“, sagt Chuvakin. „In der Regel manifestiert sich diese Mehrwert durch eine schnellere Betrugserkennung, breitere und tiefere Ermittlung von Sicherheitsvorfällen und eine effizientere Untersuchung von Vorfällen.“

Eines dieser Unternehmen ist der Kreditkarten-Riese Visa. Das Unternehmen sorgte kürzlich für Furore, als es im Wall Street Journal bekannt gab, dass es eine neue Analyse-Engine und 16 verschiedene Modelle einsetzt, die in weniger als einer Stunde aktualisiert werden können, um Kreditkartenbetrug aufzudecken.

Laut Visa hat sich die Leistung der Analyse-Engine im Vergleich zu früheren Technologien erheblich verbessert. Während die Plattform vorher nur mit 40 Teilaspekten einer Transaktion umgehen konnte, sind es heute 500. 

Die leistungsstarken Analysefunktionen basieren auf der von Visa im Jahr 2010 angeschafften Technologien für nicht-relationale Datenbanken sowie dem Open-Source-Framework Hadoop von Apache. Letzteres wurde für die kostengünstige Speicherung und Auswertung von verteilten Daten in Clustern entwickelt, die aus Mainstream-Servern bestehen.

Wettbewerb auf dem Markt für Big-Data-Analytics wird stärker

Hadoop basiert auf dem MapReduce-Algorithmus von Google und dem Hadoop Distributed File System (HDFS). HDFS ist ein hochverfügbares Dateisystem zum Speichern sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden dabei in Datenblöcke mit fester Länge zerlegt und redundant auf die verbundenen Knoten verteilt, um Ausfälle zu vermeiden.

Bisher kommt Hadoop aber nur selten in großen und mittelständischen Unternehmen zum Einsatz. Die Tools für den Hadoop-Zugriff auf Speicher- und Rechenfähigkeiten sind schwer fassbar und außerhalb von komplexen Schnittstellen und Werkzeugen für Data Scientists. 

Mehr zum Thema Big Data:

Datenschutz bei Big-Data-Projekten: Tipps für Unternehmen.

Unternehmen erreichen höheres ROI mit Big Data und Analytics.

Information Governance und Analytics reduzieren Big-Data-Risiken.

NoSQL-Herausforderungen: Wie es um Big Data und Security steht.

Dies gilt auf für Programmierer mit Kenntnissen in MapR Hive für SQL-ähnliche Abfragen oder der High-Level-Sprache Pig Latin, wenn sie auf diese Tools zugreifen wollen. Mit Pig Latin lassen sich beispielsweise Hadoop MapReduce-Programme erstellen, die Analysen beschleunigen.

Hadoop könnte aber bald verstärkt zum Einsatz kommen, da verschiedene Anbieter – von Herstellern von Big-Data-Infrastrukturen bis zu Softwareunternehmen – Big-Data-Analytic-Tools für Unternehmensanwender anbieten. So haben beispielsweise Cloudera und SAS eine strategische Partnerschaft angekündigt, auch Infobright, EMC Greenplum und MapR treten mit Analyse- und Visualisierungswerkzeugen in dieses Marktsegment ein. Unternehmen können damit Prozesse für die Analyse großer Datenmengen entwickeln, unter anderen auf Basis von Sandboxing und Virtualisierung.

„Der Bedarf für derartige Analysen ist bereits seit längerer Zeit vorhanden. Doch erst jetzt ist die Technik so weit, dass sich diese Art von Analysen skalieren lassen", sagt Mark Seward, Senior Director für Sicherheit und Compliance bei Splunk. Das Unternehmen bietet unter anderem Security Information and Event Management (SIEM) -Technologie an, mit der sich Maschinendaten analysieren lassen. Dazu gehören Daten aller Systeme sowie das Internet der Dinge und vernetzte Geräte.

Splunk kann jeden ASCII-Text indizieren und für die Rückgabedaten bis zu 150 Befehle nutzen, um statistische Analysen auszuführen und die Ergebnisse zu visualisieren. Laut Seward kann Splunk bis zu einer Datenmenge im Petabyte-Bereich skalieren. 

Allerdings verarbeitet die Lösung nativ keine binäre Daten, bietet aber Hadoop und andere Konverter. Um Splunk verwenden zu können, müssen sicherheitsbewusste IT-Experten vor allem Unix-Shell-Scripting-Befehle kennen, SQL verstehen und über Zugriff auf die Dokumentation verfügen, die zeigen, welche Art von Feldern die Daten enthalten.

„Mit der Einführung von Hadoop und Indexierungstechnologien wie Splunk stehen jetzt die Technologien zur Verfügung, um tiefere Einblicke in von Maschinen oder Nutzern generierte Daten zu gewinnen. Damit können Unternehmen besser verstehen, was intern oder beispielsweise an einer Fertigungslinie geschieht", sagt Seward. 

Die Risiken im Unternehmen betreffen nicht nur Fragen der Sicherheit im herkömmlichen Sinne, sondern auch den täglichen Umgang der Menschen mit Daten und Dokumenten, aus dem eine Gefahr für ihr spezielles Geschäft entstehen könnte. „Ich muss vielleicht die Daten von Heizung und Lüftung ansehen, um zu verstehen, wenn jemand in der Produktionshalle die Temperatur um ein paar Grad Celsius erhöht hat und somit die gesamte Fertigung eines Produktes gefährden kann“, erklärt er.

Dienstleistungen für Big-Data-Analytics

Unternehmen, die große Datenmengen nicht intern analysieren wollen, können externe Dienstleister zu Rate ziehen. Der auf Predictive Analytics spezialisierte Anbieter Opera Solutions nutzt maschinelles Lernen, um Muster in frei zugänglichen Daten wie Seitenaufrufen und Twitter-Feeds zu erkennen und so aus der Analyse großer Datenströme intelligente Vorhersagen treffen zu können. 

Die aus 80 Millionen Wörtern bestehende Gefahren-Ontologie (Informationen mit logischen Relationen) des Unternehmens extrahiert Phrasen und Wortwendungen aus 15 verschiedenen Sprachen. Die Lösung priorisiert auf Basis von rund 450 Millionen Beziehungen zwischen diesen Worten das Ausmaß der Bedrohung. Einer Unternehmenssprecherin zufolge  erfolgt die Auswertung der Beziehungen und Abhängigkeiten zwischen den Daten nicht durch und über Maschinen, „sondern durch die Analyse der menschlichen Beziehungen im kompletten Internet.“

Vor allem Regierungen und Unternehmen nutzen die Dienstleistungen von Opera Solutions, um ihre Kunden im Voraus vor externen Bedrohungen wie gewalttätigen Protesten oder potenziellen Terroristen zu warnen. Kürzlich zum Beispiel informierte das Unternehmen einen Kunden vor einer Demonstration, die vor dessen Gebäude geplant war. Dadurch konnten die Führungskräfte ein wichtiges Meeting verschieben.

„Viele Unternehmen verfügen über Sicherheitsexperten oder Produktgruppen, mit denen sie diese Aufgabe erfüllen könnten, wenn sie nur wenige Dokumente überprüfen müssten“, sagt Herb Kelsey, Vice President Analytics bei Opera Solutions. „Wir durchsuchen aber Hunderte Millionen von Dokumenten und Informationsteilen pro Tag. Das übertrifft bei weitem die Kapazitäten eines Menschen, sei es eines Unternehmensanalysten oder des Chief Security Officers.“  

In vielen erfolgreichen Projekten waren kombinierte Teams aus der Security-Abteilung und der Betrugs-erkennung gemeinsam für die Analyse-Plattform verantwortlich.

Anton Chuvakin, Research Director für Sicherheits- und Risikomanagement, Gartner

Die Maschine lernt, ahmt das Verhalten von Personen nach und liefert sehr granulare und gut aufbereitete Informationen. „Wir beteiligen Menschen in mehreren Schritten an diesem Prozess um zu verstehen, wie sie die Lösung eines Problems angehen – und die Maschine imitiert dieses Verhalten.“

Opera Solutions beschäftigt rund 230 Data Scientists, Spezialisten für maschinelles Lernen, weitere Fachexperten sowie natürlich auch IT-Spezialisten. Wie andere Unternehmen aus der Branche bietet auch Opera Solutions ein eigenes Big-Data-Analytics-Tool für Unternehmen an. 

Kelsey entwickelt zudem Secure Community of Interest (SCoI) für die hundertprozentige Tochter Opera Solutions Government Services. SCoI schützt sensible Daten vor unberechtigter interner Nutzung und externen Bedrohungen. Dies gelingt, indem die Dokumente verschlüsselt in der Public Cloud gespeichert werden und durch starke Authentifizierung geschützt sind.

Service Provider für Data Analytics oder Kreditkarten-Unternehmen wie Visa können davon profitieren, wenn sie eine Unmenge unstrukturierter Daten oder Milliarden von Transaktionen auswerten. Doch um die Sicherheit zu wahren, raten Experten vor dem Big Bang ab. Unternehmen sollten vielmehr zunächst kleinere Projekte in einem agilen, flexiblen Prozess starten.

„Ich habe mit einigen Unternehmen gesprochen, deren auf SQL basiertes SIEM den Anforderungen nicht mehr genügt. Daher bauen sie in Eigenregie ein Hadoop-basiertes System auf“, sagt Chuvakin. „Die Erfahrungen mit der Datenanalyse auf Basis der SIEM-Lösung bildeten dabei eine gute Know-how-Grundlage für das Big-Data-Analytics-Projekt. Zudem ist es sinnvoll, das erste Projekt zur Datenanalyse mit kleinen Datenmengen und vor allem strukturierten Daten zu starten.“

Laut Chuvakin nutzen Unternehmen für die Analyse von Sicherheitsdaten eine Vielfalt von Algorithmen. Sie reichen von der „einfachen Aufzählung über maschinelles Lernen, Clustering, Profiling bis hin zu allen Arten der Entdeckung von Sonderfällen und Anomalien.“

Probleme der Datenwissenschaft

Viele Unternehmen verzetteln sich mit Investitionen und dem Ausbau der IT-Infrastruktur, statt sich Zeit für die Analyse ihrer Daten zu nehmen. Im ersten Schritt geht es darum, die Daten zu sammeln, die ein Problem verursachen. Das können zum Beispiel Netzwerk-Logs auf vielen Systemen sein oder Daten über das Verhalten der Mitarbeiter. Wann betreten die Angestellten das Firmengebäude, auf welche Datenbanken greifen sie zu, führen sie Anwendungen in die IT-Landschaft ein?

Unternehmen finden bestimmte Verhaltensmuster heraus, indem sie Daten von Maschinen und Anwendungen sowie die digitalen Spuren von Menschen sammeln, die diese in ihrem beruflichen Alltagsgeschäft hinterlassen. „Die Datenbasis muss alle strukturierten und unstrukturierten Daten  über einen Zeitraum von mindestens sechs Monaten umfassen, damit man eine Verhaltensänderung überhaupt erst erkennen kann“, sagt Mark Seward, Senior Director für Sicherheit und Compliance bei Splunk. Unternehmen müssen daher in der Lage sein, aus einem Datenvolumen im Terabyte- oder Petabyte-Bereich Muster oder Anomalien zu erkennen.

Die zweite Hürde insbesondere bei der Auswertung von unstrukturierten Daten stellt kompetentes Personal dar, sei es intern oder extern. Die Mitarbeiter benötigen Fähigkeiten in der statistischen Analyse sowie in der Analyse von bestimmten Signalen oder Indikatoren, die auf ein spezielles Ereignis hindeuten, aus dem man „echte“ Erkenntnisse gewinnen kann.

Ein Beispiel: Wenn eine Person zu einer bestimmten Tageszeit auf eine bestimmte Art von Informationen einer entsprechenden Website zugreift, kann dies mit böser Absicht erfolgen. „Sie brauchen Leute, die diese Muster erkennen und richtig bewerten“, sagt Herb Kelsey, Vice President Analytics bei Opera Solutions.

Drittens geht es um die Präsentation der Informationen an die Führungskräfte, sei es in Form eines physischen Berichts mit Hilfe von Grafiken oder auf andere Art und Weise. Dazu Kelsey: „Die Menschen benötigen Informationen in Echtzeit, doch im Moment entwickeln sie eine Applikation.“

Viele Unternehmen haben Probleme in zwei Bereichen: „Wir stellen zum einen fest, dass die meisten Unternehmen unzureichende Kompetenzen beim Sammeln von vor allem unstrukturierten Daten besitzen, zumal diese oft in mehreren Sprachen vorliegen“, sagt Kelsey. 

Zum anderen fällt es den Unternehmen schwer, geeignete Fachkräfte für die Big-Data-Analyse zu gewinnen. Der Wettbewerb um die wenigen wirklich sehr gut ausgebildeten Analytik-Experten verschärft sich. „Firmen wie Amazon, Google aber auch Wirtschafts- beziehungsweise Finanzunternehmen drängen sich um wenige Fachleute“, so Kelsey. Seine Firma Opera Solutions etwa verdoppelte in den letzten 18 Monaten die Anzahl der Data Scientists unter ihren Mitarbeitern.

Für den effizienten Einsatz von Big-Data-Analytics müssen Unternehmen die gesammelten Beobachtungen, Erfahrungen und logischen Analysen verwenden, um bestimmte Muster in den Daten zu erkennen. „Predictive Analytics bedeutet die Anwendung statistischer Analyse und Modellierung, um eigene Beobachtungen zu untermauern oder zu entkräften“, sagt Mark Seward, Senior Director für Sicherheit und Compliance bei Splunk

Mehr zum Thema Hadoop:

Hadoop zur Leistungssteigerung mit anderen Big-Data-Framworks mischen.

Hadoop-Integration von SAP: Diese Möglichkeiten bietet das Softwarehaus an.

Bessere Datenqualität mit Big-Data-Analytics und Hadoop.

Hadoop-Tools für ein kontinuierliches Datenmanagement von Big Data.

„Auf Basis dieser Beobachtungen und eines statistischen Modells zeigt sich dann, ob möglicherweise ein Trend aus der Gegenwart oder Vergangenheit auch in der Zukunft anhält. Das Modell und die Erkenntnisse sind individuell für jedes Unternehmen. Daher müssen hier auch die Unternehmen die entsprechenden Entscheidungen treffen.“

Fans des Films „Minority Report“ werden das Vorhersagemodell („Predictive Policing“) für die Polizeiarbeit und Verbrechensbekämpfung begrüßen, das sich in einigen großen Metropolen wie Los Angeles abzeichnet.

Es kombiniert fortschrittliche statistische Analysen bisher verübter Verbrechen, Visualisierung, maschinelles Lernen und künstliche Intelligenz, um vorherzusagen, wann und wo mögliche Verbrechen auftreten könnten. Ziel ist es, kriminelle Aktivitäten proaktiv zu verhindern und dadurch auch Ressourcen zu sparen. Ein Großteil der Forschung über „PredPol“ erfolgt an der UCLA (University of California, Los Angeles).

Die meisten Organisationen und Unternehmen sind jedoch auf sich selbst gestellt, wenn es um statistische Modellierung und Big-Data-Analytics geht. „Es gibt keine vorgefertigte Lösung, die auf magische Art und Weise die Daten rund um Sicherheit für sie analysiert“, erläutert Anton Chuvakin, Research Director für Sicherheits- und Risikomanagement bei Gartner. 

„Alle implementierten Analyse-Plattformen, die ich bislang gesehen habe, basieren auf internen, selbst gebauten Lösungen und Analysemethoden. Es gibt Anbieter, die eine maßgeschneiderte Hadoop-Implementierung verkaufen, aber niemanden, der für Unternehmen die Big-Data-Analyse aufbaut und übernimmt.“

Die Tendenz zu falschen positiven Urteilen oder Fehlinterpretationen birgt eigene Risiken. Kate Crawford, Principal Researcher bei Microsoft Research, warnte in einem Beitrag für den Harvard Business Review Blog Big-Data-Analytiker vor versteckten Verzerrungen und bot einige Beispiele. Sie nennt das Problem „Datenfundamentalismus“ oder „die Vorstellung, dass eine Korrelation immer Kausalität aufzeigt, und dass große Datenmengen sowie Predictive Analytics immer die objektive Wahrheit reflektieren."

Neben der technologischen Implementierung müssen viele Unternehmen noch klären, wer für die Big-Data-Analyse verantwortlich ist. Hier bietet sich eine Kombination von hochqualifizierten Experten an. „In vielen erfolgreichen Projekten waren kombinierte Teams aus der Security-Abteilung und der Betrugserkennung gemeinsam für die Analyse-Plattform verantwortlich“, sagt Chuvakin. 

„Das Sicherheitsteam müsste sonst Personal mit Statistik-Kenntnissen zukaufen. Das kann teuer werden. Besser wäre es, wenn es einen Statistiker aus dem eigenen Unternehmen hinzuziehen könnte, der gerade an einem anderen Projekt arbeitet. Der Statistiker muss aber zwingend mit einem Security-Experten kooperieren.“

Mittlerweile gibt es an Business Schools eigene Kurse rund um Big-Data-Analytics, teilweise auch auf Initiative von Unternehmen wie Cloudera. Doch all diese Bemühungen werden laut Herb Kelsey von Opera Solutions nicht ausreichen, um der hohen Nachfrage nach hochqualifizierten Experten in den kommenden Jahren gerecht zu werden. 

„Die Dynamik der vergangenen zwei Jahre entstand durch den Aufbau der Infrastruktur und anderer Funktionen für die Organisation von Daten. Dieser Trend wird sich fortsetzen. Das Problem: Die Infrastruktur besitzt keine analytischen Fähigkeiten“, sagt er.

 „Um wirklich effektive Big-Data-Analyse zu betreiben, sind Tools notwendig“, so Kelsey weiter. „Diese Tools müssen gut in die IT-Umgebung integriert sowie vor allem benutzerfreundlich sein, damit auch ein Business-Anwender aus den Fachabteilungen die Analyse-Plattform bedienen kann, ohne bei jedem Problem den Data Scientist um Hilfe rufen zu müssen. Diese Veränderung wird eine Menge an Kompetenzen freischalten, so dass Unternehmen die Big-Data-Analyse weiterhin selbst umsetzen können. Allerdings wird die Zahl der Experten nicht mit dem Bedarf Schritt halten. Das gilt auch für Regierungen.“

Über den Autor:
Kathleen Richards ist Redakteurin des Information-Security-Magazins. Sie können sie auf Twitter unter @RichardsKath kontaktieren.

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im April 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close