psdesign1 - Fotolia

Apache Spark eröffnet neue Möglichkeiten für die Genomforschung

Forscher benötigen eine robuste Big-Data-Architektur, um Genomdaten zu analysieren. Apache Spark bietet für die Genforschung einen passenden Ansatz.

Denkt man über Organisationen nach, die Herausforderungen bei Big Data Analytics bewältigen müssen, kommen einem Webunternehmen wie Facebook, Netflix und Google als erstes in den Sinn. Auch Online-Händler sind gern gewählte Beispiele, da sie Zugang zu großen Mengen Clickstream- und Kundendaten haben. Wissenschaftliche Forschungseinrichtungen, die Genomdaten analysieren, sind dagegen nicht so stark in der öffentlichen Wahrnehmung vertreten. Dennoch sind sie es, die mit den dicken Brocken bei Big Data Analytics zu kämpfen haben.

Genomdaten – Informationen über menschliche oder tierische Gene und die darin enthaltene DNA – schwellen wie eine Flutwelle an. Viele Forscher sind daher gezwungen, für die Datenanalyse nach neuen Datenarchitekturen Ausschau zu halten. Und einige finden, dass Apache Spark und ähnliche Big-Data-Technologien passende Ansätze hierfür bieten.

Es dauerte rund ein Jahrzehnt und kostete fast drei Milliarden Euro, um das erste menschliche Genom zu sequenzieren. Doch da sich die verfügbaren Methoden verbessert haben, sind sowohl Dauer als auch Kosten mit der Zeit gesunken.

Heute ist die Analyse von Genomdaten einer der Schwerpunkte in der wissenschaftlichen Forschung, wobei sich ein Großteil der Forschung auf die Behandlung von Krankheiten konzentriert. Angetrieben durch diese Bemühungen, stehen mittlerweile mehrere Behandlungsmethoden von zum Beispiel Krebs, Herzerkrankungen und Diabetes zur Verfügung, die auf spezifische genetische Merkmale von Patienten zugeschnitten sind.

Doch all diese Aktivitäten in der Genomforschung erzeugen eine Art Datenkrise. Die Autoren eines 2015 in der Zeitschrift PLOS Biology veröffentlichten Forschungsartikels schätzen, dass in den nächsten zehn Jahren deutlich mehr Daten in der Genomforschung erzeugt werden, als in der Astronomie-Forschung oder durch YouTube oder Twitter produzierte Datenberge.

Ein klarer Bedarf für Datenanalyse-Geschwindigkeit

„Bei einer solchen Datenflut sind Innovationen im Computing-Bereich erforderlich, um das Tempo in der aktuellen Biomedizinforschung zu halten“, sagt Cotton Seed, Senior Softwareentwickler beim Broad Institute, einem Forschungszentrum, das 2004 vom MIT in Kooperation mit der Harvard Universität gegründet wurde.

Laut Seed finden mehrere dieser Innovation in Apache Spark statt. In einem Vortrag auf dem Spark Summit 2017 in Boston Mitte Februar, erläuterte der Entwickler, dass sein Team und er eine Genom-Forschungsplattform auf Basis von Spark entwickelt haben, welche die SQL-Abfragefunktionen und die Bibliothek von Machine-Learning-Algorithmen der Big Data Engine einsetzt.

Das Broad Institute arbeitet aktuell unter anderem an Projekten, genetische Merkmale abzubilden, die in Verbindung mit bestimmten Krebsarten stehen könnten, und der Erforschung der genetischen Struktur von Mikroorganismen, die im menschlichen Körper leben.

Seed verweist darauf, dass Spark für diese Anstrengungen praktisch ist, da es sich mit verschiedenen Data Stores verbinden kann und Forscher mit unterschiedlichen Abfragesprachen interagieren können, darunter SQL, Python oder Scala, die sich am besten für diese Arbeit eignen. Wenn sie Abfragen schreiben, „ist es wichtig, dass [Forscher] in der Lage sind, so nah wie möglich in der Sprache der Biologie ‚zu sprechen’“, sagt er.

„Die Geschwindigkeit, mit der Apache Spark große Datenmengen verarbeitet, und seine Skalierbarkeit macht die Plattform für den Einsatz in der Analyse von Genomdaten attraktiv“, sagt Zhong Wang, Big Data Scientist und Biologe mit Schwerpunkt Genomforschung am Lawrence Berkeley National Laboratory, während einer weiteren Präsentation auf dem Spark Summit.

Wang leitet ein Forscherteam, das die genetische Wechselwirkung zwischen Mikroorganismen in Tieren untersucht. Die Untersuchungen produzieren viel zu viele Daten, um von den Forschern manuell in einer Tabelle interpretiert werden zu können. Das Team entschied sich daher für den Einsatz von Spark und Machine-Learning-Algorithmen, um die Daten zu analysieren und sinnvolle Korrelationen zu identifizieren.

Spark bietet mehr Verarbeitungsleistung

Vor dem Einsatz von Spark verwendeten Wang und seine Kollegen seit 2009 ein Hadoop-Cluster mit sechs Servern, um ihre Daten zu analysieren, sowie die Apache Pig Scripting- und Analyse-Plattform. Doch die Bearbeitungszeiten waren lang, sagt der Forscher. Außerdem versuchte das Forschungsteam graphbasierte Algorithmen zu entwickeln, die nicht sehr kompatibel mit einer MapReduce-basierten Programmierumgebung wie Pig waren.

Das Team wechselte daher zu Apache Spark und verlagerte die gespeicherten Daten auf Amazon EMR, einer Cloud-basierten Hadoop-Distribution von Amazon Web Services (AWS). Nach Angaben von Wang verkürzte Spark die Verarbeitungszeit deutlich, auch wenn die Datenmenge seitdem kontinuierliche angewachsen ist.

Wie Seed verweist Wang positiv auf die Fähigkeit, Anwendungen für Spark in einer Vielzahl von einfach zu lernenden Sprachen zu schreiben. Das bedeutet, dass Forscher wir er die meiste Entwicklungsarbeit selbst erledigen können, die für Datenanalyseprojekt in der Genomforschung erforderlich sind, anstatt sich auf spezielle Datenanalysten oder Data Scientists verlassen zu müssen.

„Ich bin kein ausgebildeter Informatiker, aber ich kann Scala- und Python-Anwendung für Spark selbst schreiben“, sagt Wang. „Es ist leider nicht möglich, einen teuren Spezialisten einzustellen, der sich für uns nur darum kümmert.“

Folgen Sie SearchEnterpriseSoftware.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im März 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Big Data

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchDataCenter.de

Close