skvoor - Fotolia

Graphdatenbanken zeigen ihren Nutzen jenseits von Facebook, Twitter und Co.

Bei Graphdatenbanken stehen die Verbindungen zwischen Daten im Vordergrund. Zwei Anwendungsbeispiele zeigen den praktischen Nutzen der Datenbanken.

Graphdatenbanken sind ein mathematisches Konzept aus dem 18. Jahrhundert mit einer Vielzahl moderner Anwendungsszenarien. Sie werden für eine ganze Palette von Aufgaben eingesetzt, darunter Dating-Websites oder Betrugserkennung. Das grundlegende Prinzip hinter der Graphtechnologie ist, statt nach Daten nach Beziehungen zu suchen. Die Idee, die hinter diesen Datenbanken steckt, wird dem Schweizer Mathematiker Leonhard Euler zugeschrieben, der im Jahre 1735 die theoretische Grundlage dafür schuf.

Fast 300 Jahre lang war die Graphentheorie kaum mehr als eine akademische Übung. Aber inzwischen hat sich gezeigt, dass Graphen auf eine geniale Art und Weise mit großen Datenmengen umgehen können, und vor allem: mit komplexen Beziehungen zwischen Daten.

In den vergangenen Jahren haben Experten die Graphentheorie genutzt und Graphdatenbanken (oder graphenorientierte Datenbanken) geschaffen, eine Art von Datenbank, bei der die Verbindungen zwischen den Daten ebenso wichtig sind wie die Daten selbst.

Durch die Speicherung der Verbindungen zwischen den Daten sowie den Daten selbst können graphenorientierte Systeme sehr schnell nach Informationen suchen und Trends erkennen. Das macht sie ebenso zu einem mächtigen Werkzeug für die Echtzeitanalyse wie für die Abbildung sozialer Netzwerke, von Supply-Chain-Mustern oder sogar Kriminalitätswellen.

Weil eine Graphdatenbank speziell nach Verbindungen und Beziehungen sucht – im Fachjargon Kanten genannt –, dauert es nur wenige Minuten oder sogar Sekunden, um entsprechende Fragen zu beantworten, für die ein herkömmliches Datenbanksystem Tage brauchen würde.

Graphen – eine kurze Theorie

Bevor wir auf die praktische Relevanz eingehen, kurz ein paar theoretische Grundlagen. Ein Graph besteht aus Knoten und Kanten. Knoten sind einfach gesagt die Punkte, Kanten die Verbindungen zwischen den Punkten. In einer geometrischen Darstellung entsprechen also Knoten den Punkten und die Kanten den Linien, die die Punkte verbinden.

Ein einfaches Beispiel für einen Graphen sind Beziehungen zwischen Menschen. Die Knoten stellen Menschen dar, jedem Knoten wird der Name einer Person zugeordnet. Die Kanten repräsentieren Beziehungen, zum Beispiel „kennen“, „lieben“ oder „hassen“. Sowohl Knoten als auch Kanten können Eigenschaften (Properties) besitzen, zum Beispiel „Gewicht: 80 kg“, „Name: Peter“. Durch diese Spezialisierung auf Eigenschaftengraphen unterscheiden sich Graphdatenbanken von den klassischen Datenmodellen der relationalen Datenbanken.

Um komplizierte Datenbankabfragen zu vereinfachen, ist es in Graphdatenbanken möglich, die Daten mit einer Reihe von spezialisierten Graphalgorithmen zu durchsuchen. So gibt es beispielsweise Algorithmen, die dazu dienen, Graphen zu traversieren, das heißt, alle direkten und indirekten Nachbarn eines Knotens zu finden. Des Weiteren existieren Algorithmen, mit denen sich die kürzesten Pfade zwischen zwei Knoten berechnen, bekannte Graphstrukturen wie beispielsweise Cliquen finden oder Hotspots besonders stark vernetzter Regionen im Graph identifizieren lassen.

Graphdatenbanken in Aktion

Laut Alan Duncan, Research Director für Data Analytics bei Gartner, kann die Graphtechnologie auf viele Bereiche im öffentlichen und privaten Sektor angewendet werden.

„Strafverfolgungsermittler verwenden, die Graphtechnologie, um Verbrechen nach Mustern zu durchsuchen, und die Polizei nutzt sie für Predictive Policing – die Prognose von Verbrechen“, sagt Duncan. „Im Bankbereich muss ein Fraud Manager betrügerische Netzwerke identifizieren, und Telekommunikationsanbieter müssen laufend das Call Routing bei ihren Netzen optimieren – in allen Fällen unterstützen Graphdatenbanken sie dabei.“

Diese Anwendungsfälle, so der Experte, bilden die Kernanwendungen der Datenbanktechnologie. Allgemein gesagt können Graphdatenbanken immer dort genutzt werden, wo „komplexe Beziehungen einen Einfluss auf das haben, was Sie interessiert“.

Allerdings basieren die größten Anwendungen der Datenbanken bisher auf proprietären Technologien und nicht auf kommerziell erhältlichen oder Open-Source-Graphdatenbanken.

Twitter, Facebook und LinkedIn werden analysiert, indem die Graphtechnologie verwendet wird. Sie hilft, Verbindungen zwischen den Benutzern zu identifizieren sowie Informationen für die Werbewirtschaft zu erzeugen. IBM nutzt im Rahmen seines kognitiven Sprachsystems Watson ebenfalls Graphtechnologien.

Aber obwohl IBM begonnen hat, seine Watson-Technologie zu kommerzialisieren, und Google im Jahr 2014 seine Cayley Open-Source-Graphdatenbank veröffentlicht hat, sind die Graphtechnologien, die von den sozialen Netzwerken verwendet werden, für Außenstehende weitgehend unzugänglich – zumindest vorerst.

Im Endeffekt bedeutet das: Obwohl fast jede Person mit einer Internetverbindung wahrscheinlich täglich Graphdatenbank-Technologien verwendet, bleibt die Nutzung solcher Werkzeuge in der Wirtschaft begrenzt und oft nur experimentell.

Gartner glaubt zum Beispiel, dass nur ein bis fünf Prozent des Zielmarktes für Graphdatenbanken die Technologie auch verwenden und dass sich viele der Graphdatenbank-Projekte von Unternehmen lediglich im Versuchsstadium oder in der Phase eines Proof of Concepts befinden.

In der Tat nutzen Unternehmen Graph-Tools eher im Rahmen einer Fachanwendung, wie zum Beispiel eines Betrugserkennungspakets, das von Unternehmen einer bestimmten Branche gekauft wird. Oder sie setzen ein allgemeines Analyse-Tool mit Graphfähigkeiten ein. Weil aber die von Organisationen gespeicherten Datenmengen wachsen und Analysten immer mehr Wert auf die Beziehungen zwischen den Daten legen, kann sich die Situation bald ändern.

Datengetriebene Entscheidungsfindung bei Gamesys

Die Online Gaming Website Gamesys setzt Graphdatenbanken erfolgreich für ihr Geschäftsmodell ein. „Wir treffen eine Menge Entscheidungen, die auf Daten basieren", sagt Toby O'Rourke, Leiter der Services für Spielerplattformen bei Gamesys. „Dabei sind wir immer auf der Suche nach Wegen, mehr Daten aufzunehmen und damit mehr darüber zu erfahren, was auf unseren Seiten bei den Spielern los ist und wie sie spielen.“

Als Gamesys beschlossen hat, auf seiner Website einige Social Network Features anzubieten, entschied sich das Unternehmen aus zwei Gründen für eine Graphdatenbank: zum einen aufgrund ihrer Leistung und zum anderen deshalb, weil sie einfach zu implementieren sind.

„Wir mussten dieses soziale Netzwerk irgendwo speichern, und ein graphähnliches Storage-System schien da gut zu passen“, sagt O'Rourke. „Tatsächlich wurde das Problem dann wirklich gut mit der zugrunde liegenden Technologie abgebildet. Die Tatsache, dass wir ein Domain-Modell in unserer Java-Anwendung aufbauen und es fast direkt in den Datenspeicher abbilden konnten – ohne Layer und Abstraktions-Layer –, hat das Ganze massiv beschleunigt.“ Dies, sagt O'Rourke weiter, war für sein Unternehmen ein bedeutender Vorteil, da die schnelle Markteinführung ein entscheidender Erfolgsfaktor ist.

Verbindungen zwischen Datensätzen herstellen

Die Art und Weise, wie Gamesys Graphdatenbanken einführte, ist der normale Weg für Unternehmen, bestätigt Emil Eifrem, CEO von Neo Technologies. Sein Unternehmen steht hinter der Neo4j-Graphdatenbank, die von Gamesys verwendet wird.

„Seit zehn oder 15 Jahren beobachten wir, dass Webunternehmen datenbasierte Geschäftsmodelle haben. Aber obwohl die reinen Daten sehr wertvoll sind, gilt dies auch für die Verbindungen zwischen den Daten. Ein wichtiger Wert der Daten liegt in den Verbindungen zwischen den Menschen, und das führte bekanntlich zum Aufstieg von Facebook", sagt er.

„Dann fing Google an, nach den Verbindungen zwischen Websites zu suchen, extrahierte diesen Link und nutzte ihn für das Ranking von Websites. Wir selbst hatten ähnliche Probleme, weil es nicht leicht war, innerhalb der Daten Verbindungen zu verwalten. Es stand nichts wirklich zur Verfügung", erläutert Eifrem.

Nach Angaben des CEOs von Neo Technologies soll eine Neo4j-Installation tausend oder sogar eine Million Mal schneller sein als eine herkömmliche relationale Datenbank, wenn es um die Verbindungen von Daten geht. Und, sagt er weiter, die Idee, nach Verbindungen zwischen den Daten zu suchen, ist nicht so komplex, wie es zunächst scheinen mag.

„Wenn Sie ein System bauen, um den Bestand von Autoteilen zu verwalten, werden Sie ein System aufbauen, das Autos und deren Teile speichert“, erklärt Eifrem. „Sie werden eine Datenbank haben mit Windschutzscheiben, Rädern, Lenkrädern und so weiter. Dies sind Objekte. Aber es gibt auch Verbindungen zwischen ihnen. Es kann sein, dass diese Schrauben hier funktionieren, dort aber nicht, oder es lässt sich dieses Teil nur mit einem bestimmten anderen benutzen. Alle Teile lassen sich mit bestimmten anderen Teilen verbinden, aber Sie können das nicht in einer tabellenbasierten Datenbank abbilden.“

Die Nutzung der Graphtechnologie ermöglicht es den Herstellern, sowohl die Auswahl der Teile zu beschränken – zum Beispiel für die Wartung – als auch, diese zu expandieren. Zum Beispiel kann ein Händler einem potenziellen Käufer eine aktuelle Liste der Ausstattungsoptionen für ein Auto aushändigen.

Graphdatenbanken erfüllen das Bedürfnis nach Geschwindigkeit

Ähnliche Werkzeuge werden von Online-Händlern für Empfehlungsmaschinen verwendet und von Social-Media-Unternehmen, um neue Links vorzuschlagen.

Natürlich können CIOs auch Empfehlungssysteme mit relationalen Datenbanken aufbauen. Aber die Zeit, die das Ausführen der Abfragen dauert, bedeutet, dass sie stapelweise verarbeitet werden, womit die Antworten vielleicht schon wieder veraltet sind. Graphsysteme sind viel schneller.

„In der heutigen Welt müssen Entscheidungen in der Regel auf aktuellen Daten basieren", bestätigt Michal Bachman, Geschäftsführer der Beratungsfirma GraphAware. „Anstatt Empfehlungen über Nacht im Voraus zu berechnen, möchten Sie Ihren Nutzern Echtzeitinformationen anbieten auf der Grundlage der neuesten Entwicklungen.“ Die Reaktionszeit eines graphbasierten Systems kann im Bereich von Millisekunden liegen.

Graphen sind logisch und flexibel

Es spricht jedoch noch ein weiterer Faktor für die Graphtechnologie: die einfache Bedienung. Das ist vielleicht überraschend für eine Technologie, deren Implementierung recht komplex sein kann. Aber ein Teil des Reizes von Graphen ist, dass die Art, wie sie die Beziehungen zwischen den Datenpunkten präsentieren, relativ einfach zu verstehen ist.

„Für Menschen, die keine Experten sind, können Sie Kreise und Pfeile auf eine Tafel zeichnen und die Business-Logik hinter den Grafiksystemen erklären", sagt Bachman. „Das ist nicht auf Entwickler oder Data Scientists beschränkt."

Graphdatenbanken sind auch flexibler als herkömmliche Datenbanken, ist Bachman überzeugt, da sie einen breiteren Bereich an Attributen speichern können als herkömmliche Systeme und zudem einen Eintrag mit vielen Attributen verknüpfen. Für eine herkömmliche Datenbank ist es ein Problem, einen Mitarbeiter mit zwei Jobs zu beschreiben, während Graphdatenbanken so etwas mit Leichtigkeit bearbeiten können.

Versteckte Technologie

Trotz all dieser Vorteile haben bisher relativ wenige Unternehmen direkt in Graphdatenbanken investiert. Stattdessen kaufen sie eher Analytics-Spezialwerkzeuge, die Graphtechnologie in ihrem Kern verwenden, aber diese Technologie vor den Benutzern verbergen.

Dies ist der Ansatz bei einer Reihe von Betrugserkennungssystemen und Social-Media-Monitoring-Paketen. Aber weil die Technologie immer größeren Anklang findet, nutzen auch immer mehr Unternehmen die Graphtechnologie direkt – oder investieren in Analyse-Tools mit integrierten Graphfunktionen.

„Bisher ist die Akzeptanz von Graphtechnologie nicht so schnell gestiegen wie bei anderen Big-Data-Technologien“, räumt Bachman ein. „Aber ich glaube, dass das Ökosystem rund um Graphdatenbanken immer attraktiver wird, um es zu einer Mainstream-Datenplattform zu machen.“

Spielzeughersteller Schleich verfolgt mit Graphdatenbanken Materialien

Der deutsche Spielzeughersteller Schleich legt großen Wert auf die Produktsicherheit. Doch mit der globalen Lieferkette wurde die Rückverfolgbarkeit von Materialien für das Unternehmen immer schwieriger, so Andreas Weber, Vizepräsident bei Schleich für das operationale Business. Das war eine Herausforderung, für die die Graphdatenbank-Technologie wie gemacht zu sein schien.

Schleich produziert ein recht beliebtes Angebot an Modelltierfiguren wie Nutztiere und Pferde. Die Qualität der dabei verwendeten Materialien ist eine Herausforderung: „Wir brauchen ein klares Bild von dem, was in den Pigmenten, Kunststoffen und Harzen verwendet wird“, sagt Weber. Schon allein aus Regulierungs- und Reputationsgründen benötigt das Unternehmen detaillierte und aktuelle Informationen darüber, was in jedem verkauften Modell verwendet wird.

Für die Rückverfolgbarkeit von Materialien setzen Unternehmen oft Excel-Tabellen ein. Schleich hat diese Möglichkeit bereits hinter sich gelassen und verwendet eine SQL-Datenbank. Allerdings ist das System laut Weber für klassisches SQL zu komplex geworden. Stattdessen wurde die Entscheidung getroffen, von Grund auf neu zu starten und ein neues System zu bauen, das innerhalb des Unternehmens unter dem Namen SPIMs betrieben wird. Das Unternehmen begann das Projekt als Proof of Concept mit der Neo4j-Graphdatenbank.

Mehr zum Thema Datenbanken:

Panama Papers mit Graphdatenbank und Visualisierungssoftware enthüllt.

Übersicht und Vergleich: Datenbankoptionen für das Internet of Things (IoT).

Microsoft Azure oder AWS: Welche Cloud-Datenbank eignet sich für Sie?

Datenbanken in der Cloud: Darauf sollten Unternehmen achten.

Anwendung eines Datenbank-Management-Systems und Data Warehouses im Vergleich.

Die Graphdatenbank entnimmt dem ERP-System von Schleich die gespeicherten Informationen über das Material und verbindet sie mit den Daten der Lieferanten. „Das gibt uns bei den Daten einen roten Faden bis zur Pigmentebene, wobei wir jährlich Tests in unserem Labor machen“, erzählt er. Die Datenbank ist mit einem Dashboard verbunden, das für jedes Produkt über Status-LEDs verfügt. Diese zeigen an, dass die laut den Rechnungen verwendeten Materialien alle geprüft und genehmigt wurden.

„Sie können auf ein Modell klicken und die gelieferten Informationen auf die verwendeten Rohstoffe in Deutschland, Afrika und China herunterbrechen“, sagt Weber. „Wir können sehen, dass alles in Ordnung ist oder dass möglicherweise etwas schiefläuft. Es dauert nur wenige Sekunden, um ein Modell zu identifizieren und zu fragen, was los ist.“

Das Rückverfolgungssystem verkürzt die Time to Market von Schleich, da die Rechnungen für das Material fertig sind, sobald ein neues Modellwerkzeug abgeschlossen und das Werkzeug bereit für den Start ist. Aber die Vorzüge gehen über die Einhaltung der Compliance hinaus.

„Der große Vorteil ist, dass jeder mit Originaldaten arbeitet“, so der Schleich-Manager. „Vorher war es Excel und das Kopieren und Einfügen von Daten mit all den Problemen, die das verursacht. Jetzt ist alles zentral gespeichert, kann über einen Browser abgerufen werden und wird neben unserem ERP-System aktualisiert.“

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im Juli 2016 aktualisiert

Erfahren Sie mehr über Datenbanksysteme

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close