magazine_ Interview
Unter Gleichgesinnten
Johannes Rainer, Bioinformatiker am Institut für Biomedizin, bricht in seinem Interview eine Lanze für Open Science.
Die Softwareentwicklung für Datenverarbeitung in der Wissenschaft sei so hochkomplex geworden, erklärt Bioinformatiker Johannes Rainer, dass sie nur als transparente Teamarbeit von Expertinnen und Experten über Grenzen und Institutionen hinaus bewältigt werden kann. Für seinen Einsatz erhielt Johannes Rainer den Open Research Award 2021 von Eurac Research.
Als Bioinformatiker von Eurac Research leitest du die Forschergruppe Computational Metabolomics, beschäftigst dich also mit Software, welche Stoffwechseldaten analysiert, wenn ich das mal so ganz salopp formulieren darf. Worum geht es da genau?
Johannes Rainer: Im Prinzip wird alles was wir als Nahrung aufnehmen in unseren Zellen verstoffwechselt, also abgebaut, umgebaut und zu neuen Produkten aufgebaut. Diese Stoffwechselprodukte – z.B. Glukose, Fruktose, Kreatinin, Aminosäuren usw. – können in Blutserumproben nachgewiesen werden. Warum ist das spannend? Weil alle Stoffwechselprodukte Rückschlüsse auf den Gesundheitszustand des Probanden zulassen. Ein hoher Glukosewert etwa kann auf Diabetes hinweisen, ein hoher Kreatininwert auf eine Nierenerkrankung usw. Nur messen wir nicht nur diese vier Stoffwechselprodukte, sondern tausende gleichzeitig.
Hier kommt also Deine Software ins Spiel.
Rainer: Richtig, die Datenmengen in Metabolomics, sowie auch in anderen Wissenschaften werden immer größer, und um diese effizient verarbeiten zu können braucht es eine entsprechende Software. Ein häufig verwendetes Programm für Metabolomics-Analysen steht als Open Source Software zur Verfügung. Nur konnte ich mit der damaligen Version nicht unsere großen Datensätze auswerten. Ich habe also kurzerhand die Entwickler kontaktiert und angefragt, ob ich die Software anpassen kann. Das Tolle war, ohne dass wir uns kannten, haben sie mich eingeladen, gemeinsam an der Weiterentwicklung dieser Software zu tüfteln.
Mit dem Ergebnis?
Rainer: In den letzten Jahren haben wir die Software dahingehend umgeschrieben, dass die Daten häppchenweise prozessiert werden können, das heißt, es werden immer nur die Daten in den Arbeitsspeicher geladen, die momentan verwendet werden müssen. Es können nun auch sehr große Datensätze auf konventionellen Computern berechnet werden. Das ermöglicht uns jetzt auch die Metabolomics-Datensätze der CHRIS Studie von 7000 Studienteilnehmerinnen und -teilnehmer zu verarbeiten. Das war schon ein Durchbruch, im Verhältnis zu dem, was die Software vorher zu leisten im Stande war.
"Zu Open Science gehört auch Open Data, und die frei zugänglichen Daten sind irre wichtig. Denn erst dann wird Wissenschaft nachvollziehbar und damit transparent."
Wird die Software auch von anderen Forschungseinrichtungen genutzt?
Rainer: Ja. Die Software ist Teil des Bioconductor Projektes, das Open Source Software für die Analyse von biologischen Daten bereitstellt und wird weltweit in vielen Forschungsinstituten verwendet. Dadurch sind wir auch in Kontakt mit anderen Wissenschaftlerinnen und Wissenschaftlern gekommen, die sich mit der Analyse von Massenspektrometriedaten beschäftigen und konnten einige wichtige Kollaborationen initiieren, unter anderem mit dem Helmholz-Zentrum München und der University of California San Diego. Wir haben uns auch dank der Initiative "R für Massenspektrographie“, die ich mitbegründet habe, einen internationalen Namen gemacht. Darin entwickeln wir verschiedene Softwarepakete die Werkzeuge für Forscher bereitstellen, um auch riesige Datensätze einfacher und effizient zu bearbeiten.
Softwareentwicklung kostet viel Zeit und Geld. Warum der Aufwand? Könnte man nicht einfach kommerzielle Tools hernehmen, anstatt das Rad neu zu erfinden und vielleicht sogar schneller zu forschen?
Rainer: Es gibt genug Firmen die kommerzielle Software anbieten. Doch ist meist eine Black Box. Ich gebe Date rein, bekomme was raus, habe aber keine Ahnung wie die Daten da drinnen prozessiert werden, und ich habe keine Chance die Software oder die Algorithmen auf meine Bedürfnisse und meine Daten anzupassen. Das gute an der Open Source Software ist, dass Experten mit unterschiedlichen Backgrounds zusammenarbeiten. Wir können uns dann auch mit Forschern aus anderen Forschungsbereichen, zum Beispiel der Genomik und Transkriptomik austauschen, die beim Sequenzieren von Erbmaterial ja auch enorme Datenmengen erzeugen, um gemeinsam Wege zu finden, wie mit solchen Daten umzugehen ist. Und Ziel von Open Source Software ist es ja gerade, das Rad nicht immer von Neuem erfinden zu müssen. Ich kann mir den Source Code von anderen Entwicklern anschauen, und wenn er passt, kann ich ihn weiterverwenden, oder noch besser, ich kann ihn auch verändern und auf meine Bedürfnisse anpassen, ohne alles von Neuem schreiben zu müssen.
Siehst du, wenn überhaupt, Gefahren in Open Science bzw. Open Software oder ist sie grundsätzlich immer zu begrüßen?
Rainer: Dass unsere Open Software zweckentfremdet oder missbraucht wird, da sehe ich zum jetzigen Zeitpunkt keine wirkliche Gefahr. Würden Schadcodes eingefügt, wären die schnell ausfindig gemacht. Grundsätzlich gehört zu Open Science neben der Open Software auch die Open Data, und auch die sind irre wichtig. Denn erst wenn ich auch auf die Daten Zugriff habe, wird Wissenschaft nachvollziehbar und damit transparent. Außerdem kann ich Open Data auch als Testdaten nutzen, um zu schauen, ob meine Software wirklich das bringt, was ich mir erhoffe. Also, ja ich glaube an Open Science. Es ist schön, wenn ich in der Open Science Metabolomics Community auf Gleichgesinnte treffe, die kollaboratives Denken dem Konkurrenzdenken vorziehen. Unsere Disziplin ist eine sehr junge – gerade einmal 20 Jahre alt. Da wird sich noch zeigen, wozu Open Science fähig ist. Ich bin Optimist.
Die Preisträger des Eurac Research Open Research Award 2021
Die beiden Hauptpreise des Open Research Awards gehen an:
Die Gruppe „Language Technologies (LT)“ am Institut für Angewandte Sprachwissenschaft, deren Aufgabenbereich sich über Disziplinen, Sprachen und Gemeinschaften erstreckt und sich in der aktiven Teilnahme und Koordinierung von Initiativen manifestiert, die Menschen zusammenbringen und sie einladen, sich an der Forschung zu beteiligen, um gemeinsam bewährte Verfahren zu gestalten. (zum Interview)
Johannes Rainer, Leiter des Teams „Computational Metabolomics“ am Institut für Biomedizin, der erfolgreiche Werkzeuge und Praktiken für offene, kollaborative und reproduzierbare Forschung etabliert hat und dessen Engagement für einen kollaborativen Ansatz zur Problemlösung die Einstellung von Datenwissenschaftlern am Institut und darüber hinaus in den großen R- und Bioconductor-Gemeinschaften beeinflusst.
Die beiden Preise für Nachwuchsforscher gehen an:
Alberto Scotti, Institut für Alpine Umwelt, dessen Forschung zu Wasserinsekten als Indikator von Umweltveränderungen dem Ideal der offenen Forschungskultur und dem Ziel der gemeinsamen Nutzung aller Forschungsergebnisse folgt. (zum Interview)
Giulio Genova, Institut für Alpine Umwelt, und Mattia Rossi, Institut für Erdbeobachtung, die gemeinsam Open-Source-Tools entwickelt haben, die es nicht nur Forschern, sondern auch Nutzern mit minimalen Programmierkenntnissen ermöglichen, einfach und effizient auf meteorologische- und Umweltdaten zuzugreifen und diese zu analysieren. (zum Beitrag)