CERN nutzt private Cloud mit OpenStack für seine Big-Data-Anforderungen

CERN, der Betreiber des größten Zyclotrons der Welt, nutzt die private Cloud mit Open Stack für ihre Big-Data-Lösung mit bis zu 1 Petabyte

Der Large Hadron Collider (LHC), eines der größtes Projekte des Schweizer CERN, soll dabei helfen, grundlegende Fragen zur Existenz des Universums zu beantworten. Dabei generiert die Anlage 1 Petabyte an Daten pro Sekunde, was den Umgang mit Big Data und den Mangel an Rechen-Ressourcen zu den größten Herausforderungen für die Europäische Organisation für Kernforschung im IT-Bereich macht.

In den Phasen Test und Entwicklung hat das IT-Team der Organisation dazu mit OpenStack gearbeitet, einem Open-Source-Angebot für private Cloud-Umgebungen. Vor etwa 12 Monaten begann das CERN, OpenStack in seiner Testumgebung einzusetzen. Vor kurzem erfolgte ein Upgrade auf die fünfte Version, genannt Essex Release. Bis Februar 2013 will man in den Live-Betrieb gehen und die private Cloud-Infrastruktur produktiv nutzen, sagte Infrastruktur-Manager Tim Bell gegenüber Computer Weekly: „Bis Januar werden wir auf die sechste Version von OpenStack – Folsom – upgraden. Wir werden sie einen Monat lang testen und dann im Februar starten.“

Der Umstieg auf eine groß angelegte Cloud nach dem Prinzip „Infrastructure as a Service“ (IaaS) auf der Grundlage von OpenStack soll dem LHC-Betreiber dabei helfen, seine Rechen-Ressourcen deutlich zu erweitern; mehr als 10.000 Wissenschaftler rund um die Welt sollen die Möglichkeit bekommen, mit Hilfe der Infrastruktur bedeutende Fragen zu beantworten, etwa, aus was unser Universum besteht.

Umstieg auf private Cloud mit Open Source

Mit Aufbau und Entwicklung der Infrastruktur für den LHC hat das IT-Team des CERN schon im Jahr 1999 begonnen, also noch vor der Einführung von skalierbaren Software-Diensten. Deshalb werden die Werkzeuge und Prozesse jetzt so überarbeitet, dass verbreitete Open-Source-Angebote eingesetzt werden können.

Doch warum hat sich das CERN-Team für eine private Cloud auf der Grundlage von Open Source entschieden? Hätte eine öffentliche Cloud nicht bessere Skalierbarkeit und niedrigere Kosten gebracht?

„Wir haben eine Reihe von Anbietern für private und öffentliche Clouds verglichen. Wir waren durchaus offen für eine öffentliche Cloud und hätten kein Problem damit gehabt, all unsere Daten dort zu speichern – es sind ja von einer Gemeinschaft generierte, kostenlos zu nutzende Daten“, sagt Bell.

Bei den ersten Kosten-Analysen stellte das Team fest, dass ein öffentliche Cloud billiger käme, aber nicht sehr viel. Und: „Als wir die Netzwerk-Kosten dazurechneten, zeigte sich, dass eine öffentliche Cloud drei- bis fünfmal teurer gewesen wäre“, erklärt Bell.

Als erfahrener Nutzer von Open-Source-Technologie entschied sich das IT-Team deshalb für eine private Cloud auf Open-Source-Basis. „Das schien uns gut zu unserer IT-Infrastruktur zu passen“, sagt Bell.

Aber es gab noch andere Gründe für die Entscheidung. „Wir wollten nicht nur einen Cloud-Service-Provider, sondern auch Funktionen wie Lastverteilung und Database as a Service (DbaaS“, erklärt Bell, „OpenStack erfüllte diese Anforderungen“.

Einer der größten Vorteile von Cloud-Computing war laut Bell, dass es IT-Effizienz ins CERN gebracht hat. Nach den Ergebnissen der Testphase geht er davon aus, dass sich dadurch die IT-Prozesse der Organisation im Produktiv-Betrieb verbessern lassen: „Mit Selbstbedienungskiosks können die Nutzer innerhalb von Minuten virtuelle Maschinen schaffen und müssen nicht mehr tagelang warten, bis ein physischer Server installiert und ihnen zugewiesen ist.“

Effizienter Zugang zu Big Data im CERN

Wie hilft die Cloud konkret dabei, die Big-Data-Probleme des CERN zu lösen? Aus IT-Sicht schien es zunächst unmöglich, alle vom LHC erzeugten Daten zu speichern. „Selbst wenn wir sie gespeichert hätten, hätten wir nicht genügend Rechen-Ressourcen gehabt, um all die Daten zu analysieren“, sagt Bell.

Also entschied sich das IT-Team, die Daten zu beschneiden. Alle Kollisionsdaten aus dem LHC werden in drei Kategorien eingeordnet: In die erste kommt alles, bei dem die Fälle und ihre Bedeutung Physikern schon bekannt waren, die zweite enthält alle Daten, die für Analysen zu komplex sind, die dritte Gruppe machen diejenigen Daten aus, die dringend gespeichert und analysiert werden sollen. „Damit wird das Volumen letztlich auf durchschnittlich 6 GB pro Sekunde verringert“, sagt Bell.

Nach seinen Worten machen es die großzügigen Rechen-Ressourcen, die über die Cloud verfügbar sind, relativ einfach, diese Daten zu speichern und effizient abzurufen. „Mit der alten Infrastruktur dauerte es zwei Wochen, bis einfache Aufgaben wie der Austausch eines kaputten Speichermoduls erledigt waren. In der Cloud-Infrastruktur geht es deutlich schneller.“

Bells große Vision für die private Cloud-Infrastruktur des CERN besteht darin, sie bis 2015 auf 15.000 Hypervisoren auszubauen, auf denen zwischen 100.000 und 300.000 virtuelle Maschinen laufen. Das Ziel dabei ist ihm vollkommen klar: „Beim Cloud-Projekt geht es um nicht anderes, als die IT-Bedürfnisse der Physiker schnell und effizient zu bedienen.“

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close