skvoor - Fotolia

Graphdatenbanken zeigen ihren Nutzen jenseits von Facebook, Twitter und Co.

Bei Graphdatenbanken stehen die Verbindungen zwischen Daten im Vordergrund. Zwei Anwendungsbeispiele zeigen den praktischen Nutzen der Datenbanken.

Dieser Artikel behandelt

Datenbanksysteme

ÄHNLICHE THEMEN

Graphdatenbanken sind ein mathematisches Konzept aus dem 18. Jahrhundert mit einer Vielzahl moderner Anwendungsszenarien. Sie werden für eine ganze Palette von Aufgaben eingesetzt, darunter Dating-Websites oder die Betrugserkennung. Das grundlegende Prinzip hinter der Graphtechnologie ist, statt nach Daten nach Beziehungen zu suchen. Die Idee, die hinter diesen Datenbanken steckt, wird dem Schweizer Mathematiker Leonhard Euler zugeschrieben, der im Jahre 1735 die theoretische Grundlage dafür schuff.

Fast 300 Jahre lang war die Graphentheorie kaum mehr als eine akademische Übung. Aber inzwischen hat sich gezeigt, dass Graphen auf eine geniale Art und Weise mit großen Datenmengen umgehen können, und vor allem: Mit komplexen Beziehungen zwischen Daten.

In den letzten Jahren haben Experten die Graphentheorie genutzt und Graphdatenbanken (oder graphenorientierte Datenbanken) geschaffen, eine Art von Datenbank, bei der die Verbindungen zwischen den Daten ebenso wichtig sind wie die Daten selbst.

Durch die Speicherung der Verbindungen zwischen den Daten sowie den Daten selbst können graphenorientierte Systeme sehr schnell nach Informationen suchen und Trends erkennen. Das macht sie ebenso zu einem mächtigen Werkzeug für die Echtzeit-Analyse wie auch für die Abbildung sozialer Netzwerke, von Supply-Chain-Mustern oder sogar Kriminalitätswellen.

Weil eine Graphdatenbank speziell nach Verbindungen und Beziehungen sucht – im Fachjargon Kanten genannt – dauert es nur wenige Minuten oder sogar Sekunden, um entsprechende Fragen zu beantworten, für die ein herkömmliches Datenbanksystem Tage brauchen würde.

Graphen – eine kurze Theorie

Bevor wir auf die praktische Relevanz eingehen, kurz ein paar theoretische Grundlagen. Ein Graph besteht aus Knoten und Kanten. Knoten sind einfach gesagt die Punkte, Kanten die Verbindungen zwischen den Punkten. In einer geometrischen Darstellung entsprechen also Knoten den Punkten, die Kanten den Linien, welche die Punkte verbinden.

Ein einfaches Beispiel für einen Graphen sind Beziehungen zwischen Menschen. Die Knoten stellen Menschen dar, jedem Knoten wird der Name einer Person zugeordnet. Die Kanten repräsentieren Beziehungen, zum Beispiel „kennen“, „lieben“ oder „hassen“. Sowohl Knoten als auch Kanten können Eigenschaften (Properties) besitzen, zum Beispiel „Gewicht: 80 kg“, „Name: Peter“. Durch diese Spezialisierung auf Eigenschaftengraphen unterscheiden sich Graphdatenbanken von den klassischen Datenmodellen der relationalen Datenbanken.

Um komplizierte Datenbankabfragen zu vereinfachen, ist es in Graphdatenbanken möglich, die Daten mit einer Reihe von spezialisierten Graphalgorithmen zu durchsuchen. So gibt es beispielsweise Algorithmen, um Graphen zu traversieren, das heißt, alle direkten und indirekten Nachbarn eines Knotens zu finden. Desweiter existieren Algorithmen, um die kürzesten Pfade zwischen zwei Knoten zu berechnen, bekannte Graphstrukturen wie beispielsweise Cliquen zu finden oder Hotspots besonders stark vernetzter Regionen im Graph zu identifizieren.

Graphdatenbanken in Aktion

Laut Alan Duncan, Research Director für Data Analytics bei Gartner, kann die Graphtechnologie auf viele Bereiche im öffentlichen und privaten Sektor angewendet werden.

„Strafverfolgungsermittler verwenden Graphtechnologie, um Verbrechen nach Mustern zu durchsuchen, und die Polizei nutzt sie für Predictive Policing – die Prognose von Verbrechen“, sagt Duncan. „Im Bankbereich muss ein Fraud Manager betrügerische Netzwerke identifizieren, und Telekommunikationsanbieter müssen laufend das Call Routing bei ihren Netzen optimieren – in allen Fällen unterstützen Graphdatenbanken."

Diese Anwendungsfälle, sagt er, bilden die Kernanwendungen der Graphdatenbank-Technologie. Allgemein gesagt können Graphdatenbanken immer dort genutzt werden, wo „komplexe Beziehungen einen Einfluss auf das haben, was Sie interessiert“.

Allerdings basieren die größten Anwendungen von Graphdatenbanken bisher auf proprietären Technologien und nicht auf kommerziell erhältlichen oder Open-Source-Graphdatenbanken.

Twitter, Facebook und LinkedIn werden alle analysiert, indem Graphtechnologie verwendet wird. Sie hilft, Verbindungen zwischen den Benutzern zu identifizieren, sowie Informationen für die Werbewirtschaft zu erzeugen. IBM nutzt im Rahmen seines kognitiven Sprachsystems Watson ebenfalls Graphtechnologien.

Aber obwohl IBM begonnen hat, seine Watson-Technologie zu kommerzialisieren und Google im Jahr 2014 seine Cayley Open-Source-Graphdatenbank veröffentlicht hat, sind die Graphtechnologien, die von den sozialen Netzwerken verwendet werden, für Außenstehende weitgehend unzugänglich – zumindest vorerst.

Im Endeffekt bedeutet das: Obwohl fast jede Person mit einer Internetverbindung wahrscheinlich täglich Graphdatenbank-Technologien verwendet, bleibt die Nutzung solcher Werkzeuge in der Wirtschaft begrenzt und oft nur experimentell.

Gartner glaubt zum Beispiel, dass nur ein bis fünf Prozent des Zielmarktes für Graphdatenbanken die Technologie auch verwendet, und dass viele der Graphdatenbank-Projekte von Unternehmen sich nur im Versuchsstadium oder in der Phase eines Proof of Concepts befinden.

Tatsächlich nutzen Unternehmen Graph-Tools eher im Rahmen einer Fachanwendung, wie zum Beispiel einem Betrugserkennungspaket, das von Unternehmen einer bestimmten Branche gekauft wird. Oder sie nutzen ein allgemeines Analyse-Tool mit Graphfähigkeiten. Weil aber die von Organisationen gespeicherten Datenmengen wachsen und Analysten immer mehr Wert auf die Beziehungen zwischen den Daten legen, kann sich die Situation in nächster Zeit ändern.

Datengetriebene Entscheidungsfindung bei Gamesys

Die Online Gaming Website Gamesys setzt Graphdatenbanken erfolgreich für sein Geschäftsmodell ein. „Wir treffen eine Menge von Entscheidungen, die auf Daten basieren“, sagt Toby O'Rourke, Leiter der Services für Spielerplattformen bei Gamesys. „Dabei sind wir immer auf der Suche nach Wegen, um mehr Daten aufzunehmen und damit mehr darüber zu erfahren, was auf unseren Seiten bei den Spielern los ist und wie sie spielen.“

Als Gamesys beschlossen hat, auf seiner Website einige Social Network Features anzubieten, entschied sich das Unternehmen aus zwei Gründen für eine Graphdatenbank. Zum einen aufgrund ihrer Leistung und zum anderen deshalb, weil sie einfach zu implementieren sind.

„Wir mussten dieses soziale Netzwerk irgendwo speichern und ein graphähnliches Storage-System schien da gut zu passen“, sagt O'Rourke. „Tatsächlich wurde das Problem dann wirklich gut mit der zugrunde liegenden Technologie abgebildet. Die Tatsache, dass wir ein Domain-Modell in unserer Java-Anwendung aufbauen konnten und es fast direkt in den Datenspeicher abbilden konnten – ohne Layer und Abstraktions-Layer – hat das Ganze massiv beschleunigt.“ Dies, sagt O'Rourke weiter, war für sein Unternehmen ein bedeutender Vorteil, da die schnelle Markteinführung ein entscheidender Erfolgsfaktor ist.

Verbindungen zwischen Datensätzen herstellen

Die Art und Weise, wie Gamesys Graphdatenbanken einführte, ist der normale Weg für Unternehmen, sagt Emil Eifrem, CEO von Neo Technologies. Sein Unternehmen steht hinter der Neo4j Graphdatenbank, die von Gamesys verwendet wird.

„Seit zehn oder 15 Jahren beobachten wir, dass Webunternehmen datenbasierte Geschäftsmodelle haben. Aber obwohl die reinen Daten sehr wertvoll sind, gilt dies auch für die Verbindungen zwischen den Daten. Ein wichtiger Wert der Daten liegt in den Verbindungen zwischen den Menschen, und das führte bekanntlich zum Aufstieg von Facebook“, sagt er.

„Dann fing Google an, nach den Verbindungen zwischen Websites zu suchen, extrahierte diesen Link und nutzte ihn für das Ranking von Websites. Wir selbst hatten ähnliche Probleme, weil es nicht leicht war, innerhalb der Daten Verbindungen zu verwalten. Es stand nichts wirklich zur Verfügung“, erläutert Eifrem.

Nach Angaben des CEOs von Neo Technologies, soll eine Neo4j-Installation tausend oder sogar eine Million Mal schneller sein als eine herkömmliche relationale Datenbank, wenn es um die Verbindungen von Daten geht. Und, sagt er weiter, die Idee, nach Verbindungen zwischen den Daten zu suchen, ist nicht so komplex ist, wie es zunächst scheinen mag.

„Wenn Sie ein System bauen, um den Bestand von Autoteilen verwalten, werden Sie ein System aufbauen, das Autos und deren Teile speichert“, sagt Eifrem. „Sie werden eine Datenbank haben mit Windschutzscheiben, Rädern, Lenkrädern und so weiter. Dies sind Objekte. Aber es gibt auch Verbindungen zwischen ihnen. Es könnte sein, dass diese Schrauben hier funktionieren, dort aber nicht, oder Sie können dieses Teil nur mit einem bestimmten anderen benutzen und so weiter. Alle Teile können mit bestimmten anderen Teilen verbunden werden, aber Sie können das nicht in einer tabellenbasierten Datenbank abbilden.“

Die Nutzung der Graphtechnologie ermöglicht es den Herstellern sowohl die Auswahl der Teile zu beschränken – zum Beispiel für die Wartung – aber auch diese zu expandieren. Zum Beispiel kann ein Händler einem potenziellen Käufer eine aktuelle Liste der Ausstattungsoptionen für ein Auto geben.

Graphdatenbanken erfüllen das Bedürfnis nach Geschwindigkeit

Ähnliche Werkzeuge werden von Online-Händlern für Empfehlungsmaschinen verwendet und von Social-Media-Unternehmen, um neue Links vorzuschlagen.

Natürlich können CIOs auch Empfehlungssysteme mit relationalen Datenbanken aufbauen. Aber die Zeit, die das Ausführen der Abfragen dauert, bedeutet, dass sie stapelweise verarbeitet werden, womit die Antworten vielleicht schon wieder veraltet sind. Graphsysteme sind viel schneller.

„In der heutigen Welt müssen Entscheidungen in der Regel auf aktuellen Daten basieren“, sagt Michal Bachman, Geschäftsführer der Beratungsfirma GraphAware. „Anstatt Empfehlungen über Nacht im Voraus zu berechnen, möchten Sie ihren Nutzern Echtzeitinformationen anbieten, auf der Grundlage der neuesten Entwicklungen.“ Die Reaktionszeit von einem graphbasierten System kann im Bereich von Millisekunden liegen, sagt er.

Graphen sind logisch und flexibel

Es spricht jedoch noch ein weiterer Faktor für die Graphtechnologie: die einfache Bedienung. Das ist vielleicht überraschend für eine Technologie, deren Implementierung recht komplex sein kann. Aber ein Teil des Reizes von Graphen ist, dass die Art, wie sie die Beziehungen zwischen den Datenpunkten präsentieren, relativ einfach zu verstehen ist.

„Für Menschen, die keine Experten sind, können Sie Kreise und Pfeile auf eine Tafel zeichnen, und die Business-Logik hinter den Grafiksystemen erklären“, sagt Bachman. „Das ist nicht auf Entwickler oder Data Scientists beschränkt.“

Graphdatenbanken sind auch flexibler als herkömmliche Datenbanken, ist Bachman überzeugt, da sie einen breiteren Bereich an Attributen speichern können als herkömmliche Systeme und zudem einen Eintrag mit vielen Attributen verknüpfen. Für eine herkömmliche Datenbank ist es ein Problem, einen Mitarbeiter mit zwei Jobs zu beschreiben, während Graphdatenbanken so etwas mit Leichtigkeit bearbeiten können.

Versteckte Technologie

Trotz all dieser Vorteile haben bisher relativ wenige Unternehmen direkt in Graphdatenbanken investiert. Stattdessen kaufen sie eher Analytics-Spezialwerkzeuge, die Graphtechnologie in ihrem Kern verwenden, aber diese Technologie vor den Benutzern verbergen.

Dies ist der Ansatz bei einer Reihe von Betrugserkennungssystemen und Social-Media-Monitoring-Paketen. Aber weil die Technologie immer größeren Anklang findet, nutzen auch immer mehr Unternehmen die Graphtechnologie direkt – oder investieren in Analyse-Tools mit integrierten Graphfunktionen.

„Bisher ist die Akzeptanz von Graphtechnologie nicht so schnell gestiegen wie bei anderen Big-Data-Technologien“, räumt Bachman ein. „Aber ich glaube, dass das Ökosystem rund um Graphdatenbanken immer attraktiver wird, um es zu einer Mainstream-Datenplattform zu machen.“

Spielzeughersteller Schleich verfolgt mit Graphdatenbanken Materialien

Der deutsche Spielzeughersteller Schleich legt großen Wert auf die Produktsicherheit. Doch mit der globalen Lieferkette wurde die Rückverfolgbarkeit von Materialien für das Unternehmen immer schwieriger, so Andreas Weber, Vizepräsident bei Schleich für das operationale Business. Das war eine Herausforderung, die für Graphdatenbank-Technologie wie gemacht zu sein schien.

Schleich produziert ein recht beliebtes Angebot an Modelltierfiguren wie Nutztiere und Pferde. Die Qualität der dabei verwendeten Materialien ist eine Herausforderung: „Wir brauchen ein klares Bild von dem, was in den Pigmenten, Kunststoffen und Harzen verwendet wird“, sagt Weber. Schon allein aus Regulierungs- und Reputationsgründen braucht das Unternehmen detaillierte und aktuelle Informationen darüber, was in jedem verkauften Modell verwendet wird.

Für die Rückverfolgbarkeit von Materialien setzen Unternehmen oft Excel-Tabellen ein. Schleich hat diese Möglichkeit bereits hinter sich gelassen und verwendet eine SQL-Datenbank. Allerdings ist ist das System laut Weber für klassisches SQL zu komplex geworden. Stattdessen wurde die Entscheidung getroffen, von Grund auf neu zu starten und ein neues System zu bauen, das innerhalb des Unternehmens unter dem Namen SPIMs betrieben wird. Das Unternehmen begann das Projekt als Proof of Concept mit der Neo4j Graphdatenbank.

Mehr zum Thema Datenbanken:

Panama Papers mit Graphdatenbank und Visualisierungssoftware enthüllt.

Übersicht und Vergleich: Datenbankoptionen für das Internet of Things (IoT).

Microsoft Azure oder AWS: Welche Cloud-Datenbank eignet sich für Sie?

Datenbanken in der Cloud: Darauf sollten Unternehmen achten.

Anwendung eines Datenbank-Management-Systems und Data Warehouses im Vergleich.

Die Graphdatenbank entnimmt dem ERP-System von Schleich die gespeicherten Informationen über das Material und verbindet sie mit den Daten der Lieferanten. „Das gibt uns bei den Daten einen roten Faden bis zur Pigmentebene, wobei wir jährlich Tests in unserem Labor machen“, sagt er. Die Datenbank ist mit einem Dashboard verbunden, das für jedes Produkt über Status-LEDs verfügt. Diese zeigen an, dass die laut den Rechnungen verwendeten Materialien alle geprüft und genehmigt wurden.

„Sie können auf ein Modell klicken und die gelieferten Informationen herunterbrechen auf die verwendeten Rohstoffe in Deutschland, Afrika und China“, sagt Weber. „Wir können sehen, dass alles in Ordnung ist, oder dass möglicherweise etwas schiefläuft. „Es dauert nur wenige Sekunden, um ein Modell zu identifizieren, und zu fragen, was los ist.“

Das Rückverfolgungssystem beschleunigt das Time to Market von Schleich, da die Rechnungen für das Material fertig sind, sobald ein neues Modellwerkzeug abgeschlossen ist und das Werkzeug bereit für den Start ist. Aber die Vorteile gehen über die Einhaltung der Compliance hinaus.

„Der große Vorteil ist, dass jeder mit Originaldaten arbeitet“, sagt Weber. „Vorher war es Excel und das Kopieren und Einfügen von Daten, mit all den Problemen, die das verursacht. Jetzt ist alles zentral gespeichert, kann über einen Browser abgerufen werden und wird neben unserem ERP-System aktualisiert.“

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Juli 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Datenbanksysteme

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close