Cloud-Storage-Kosten für Business Intelligence und Datenanalysen verringern

Business Intelligence (BI) und Analytik sind ideale Cloud-Anwendungen, doch einer breiteren Nutzung stehen häufig hohe Cloud-Storage-Kosten im Weg.

Angesichts all der Aufregung um Cloud-Computing machen Anwendungen in öffentlichen Cloud-Diensten bislang einen...

überraschend geringen Anteil der gesamten IT-Ausgaben aus. So dürfte es auch bleiben, wenn nicht auch geschäftskritische Mainstream-Anwendungen, die den Löwenanteil von Unternehmensbudgets verschlingen, in die öffentliche Cloud kommen.

Das größte Hemmnis für die Verbreitung der Nutzung öffentlicher Clouds dürfte in ihren hohen Storage-Kosten liegen. Web-nahe Cloud-Anwendungen mögen mit ein paar hundert Megabyte an Daten auskommen, doch geschäftskritische Anwendungen haben oft Storage-Bedarf im Terabyte-Bereich – zu den aktuellen Preisen wird das vielen Nutzern zu teuer. Zum Glück gibt es zwei Strategien zum Umgang mit Storage-Kosten in der Cloud: Daten-Abstraktion und nach Abfragen verteilter Zugriff auf Daten.

Kosten für BI und Analytik senken mit Daten-Abstraktion

Business Intelligence (BI) und Analytik gehören zu den vielversprechendsten Anwendungen für die Cloud. Diese Anwendungen liegen zeitlich gesehen nahe an bedeutenden Entscheidungen in Bezug auf IT, räumlich oder funktional umfassen sie das gesamte Spektrum von Planern und Entscheidungsträgern. Das macht sie zu idealen Cloud-Anwendungen. Allerdings schätzen Unternehmen die Kosten für einen Testlauf mit einer BI-Anwendung auf mehr als 30.000 US-Dollar, was ziemlich viel ist.

Big Data zur Realität zu machen, ohne sich dabei zu übernehmen, lässt sich zum einen mittels Daten-Abstraktion erreichen. Damit bezeichnet man einen Mechanismus, bei dem aus nicht aufbereiteten Unternehmensinformationen eine oder mehrere zusammenfassende Datenbanken entstehen. Diese sind klein genug, um sie wirtschaftlich in der Cloud zu speichern.

Einer unserer Kunden ist ein Gesundheitsdienstleister. Wie er uns berichtete, hat er einen Satz von Datenbanken erstellt, in dem Patienteninformationen nach Diagnose-Code, Therapie-Code und Alter/Geschlecht zusammengefasst sind. Dadurch wurde das Volumen an Informationen um mehr als den Faktor 300 reduziert. Bei einer Speicherung in der Cloud hätten die Kosten für Kapazität und Zugriffe dadurch nur bei 0,3 Prozent einer Gesamtspeicherung gelegen.

Um Daten-Abstraktion zu einem effektiven Mittel des Kostenmanagements zu machen, müssen Sie wissen, was Sie analysieren wollen und wie. Bei den meisten Business-Intelligence -Durchläufen geht es nicht um Details, sondern um Trends. In den meisten Branchen gibt es deshalb Variablen, die eindeutig wichtig sind – bei Gesundheit zum Beispiel Diagnosen und Therapien. Indem Sie zusammenfassende Datenbanken zu diesen Variablen anlegen, können Sie Kosten senken und Zugriffe beschleunigen, ohne dass die Analysearbeit selbst leidet. Zudem ist es einfach, wenn nötig auch nicht zusammengefasste Daten zu den Kernvariablen hinzuzuziehen, wenn diese erst einmal festgelegt sind. Auf diese Weise kann auf Abstraktion basierende Analytik zur Cloud-Anwendung werden, detaillierte Analysen können weiter im Rechenzentrum erfolgen.

Bei unstrukturierten Daten mit nach Abfragen verteiltem Zugriff arbeiten

Der Ansatz der Abstraktion funktioniert gut bei Anwendungen zur Analyse transaktionaler Daten, die sich auf eine kleine Zahl von wichtigen Variablen konzentrieren. Wenig hilfreich aber ist er bei Big Data in der traditionellen, unstrukturierten Form, denn unstrukturierte Daten lassen sich kaum abstrahieren. Manche Unternehmen haben es zwar geschafft, Datenbanken zu erstellen, die zum Beispiel die Häufigkeit bestimmter Worte oder Wortkombinationen in E-Mails identifizieren. Dazu muss man aber davon ausgehen, die wichtigen Worte und Kombinationen im Voraus zu kennen. Für die meisten Anwendungen ist ein allgemeineres Vorgehen erforderlich. Dieses liegt in nach Abfragen verteiltem Zugriff auf Daten, unserer zweiten Strategie für das Kostenmanagement.

Eine Aufgabe zur Datenverarbeitung besteht meist aus drei Komponenten: die eigentliche Verarbeitung, Zugriff auf das Datenbank-Management zur Lokalisierung der nötigen Daten und Zugriff auf das Storage, um sie von dort abzurufen. Wenn sich große Mengen an Informationen aus Kostengründen nicht direkt in der Cloud ablegen lassen, ist es ebenso wenig sinnvoll, sie Eintrag für Eintrag in die Cloud zu holen. Am besten ist es deshalb, Daten und Abfragelogik am selben Ort außerhalb der Cloud unterzubringen. Mit Anfragen an das Database Management System (DMBS) lassen sich dann Teilmengen der Daten extrahieren und zur Verarbeitung in die Cloud schicken. Die Funktionen der DMBS-Engine vor Ort zu behalten und nur für gezielte Abfragen und Ergebnisse die Cloud zu benutzen, kann die Kosten für Daten-Storage und -Zugriffe erheblich verringern.

Anwendungen für diese Art der Funktionstrennung zu strukturieren ist relativ einfach. Tatsächlich bieten immer mehr Hersteller DBMS-Engines oder -Appliances, mit denen Storage und Abfragen gleichermaßen möglich sind. Allerdings kann es nötig sein, Prüfungen in der Anwendung vorzusehen, damit fehlerhafte Abfragen nicht zur Auslieferung sämtlicher Daten führen. Pilottests reichen dafür nicht aus – die Abfragelogik sollte vor jeder Datenlieferung den Umfang der Ergebnisse überprüfen.

Das Problem bei verteilter Abfrage-Bearbeitung

Eine Besonderheit bei Big Data ist die Möglichkeit, dass die nötigen Daten nicht am selben Ort untergebracht sind. E-Mails, Instant Messages und Ergebnisse von Zusammenarbeit werden oft dort gespeichert, wo sie anfallen, so dass es in einem Unternehmen hunderte Standorte dafür geben kann. Dadurch entsteht das Problem der verteilten Abfrageverarbeitung. Meist wird es in Zusammenhang gebracht mit MapReduce als der Lösungsarchitektur dafür oder mit Hadoop, ihrer verbreitetesten Open-Source-Implementation.

Doch selbst strukturierte Daten können verteilte Abfragen erfordern. So verwendet ein Finanzdienstleister für die Analyse der Erfahrung seiner Kunden bei Kreditvergaben Daten aus mehr als 30 Datenbanken, die sich in unterschiedlichen Metropolregionen befinden. Für strukturierte DMBS-Analysen lassen sich SQL/DMBS-Befehle nutzen, um Ergebnisse von mehreren Standorten zu konsolidieren, selbst wenn die Abfragen vorher an jeden Standort einzeln geschickt werden. Das Problem liegt deshalb eher darin, Abfragen so zu unterteilen, dass sie tatsächlich an jedem Standort individuell laufen können. Andernfalls ist auch ein Zugriff auf die anderen Standorte nötig, was die Kosten deutlich steigen lässt.

Derzeit wird der Frage, wie sich hybride Cloud aufbauen lassen, viel Aufmerksamkeit gewidmet. Es könnte jedoch gut sein, dass „hybride Daten“ für die Zukunft der Cloud bei geschäftskritischen Anwendungen weitaus wichtiger werden. Solange sie keine Möglichkeit nutzen, günstiges lokales Storage mit hochflexibler Verarbeitung in der Cloud zu vereinen, werden viele Nutzer feststellen, dass ihre großen Datenbanken sie zum Teil in ihren traditionellen IT-Infrastrukturen gefangen halten. Dadurch würden nicht nur der Cloud Umsätze mit geschäftskritischen Anwendungen entgehen, auch die Unternehmen müssten auf Vorteile der Cloud verzichten.

Über den Autor: Tom Nolle ist President der CIMI Corporation, einer strategischen Beratungsfirma mit Spezialisierung auf Telekommunikation und Daten-Kommunikation seit 1982.

Artikel wurde zuletzt im Juli 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close