magazine_ Interview
Open Science: Die Blackbox knacken
Ein Gespräch mit Datenwissenschaftlerin Paola Chiara Masuzzo über die Chancen von Open Science.
Ein Gespräch Paola Chiara Masuzzo, Datenwissenschaftlerin und Verfechterin für eine transparente Wissenschaft, über gierige Wissenschaftsverlage, Kosten, die entstehen, wenn Daten unter Verschluss gehalten werden, und darüber, wie Open Science das angespannte Verhältnis zwischen Wissenschaft und Gesellschaft wieder ins Lot bringen kann.
Open Science möchte Mängel in der Forschungskultur ausräumen. Was läuft falsch in der aktuellen Wissenschaft?
Paola Chiara Masuzzo: Das ist eine lange Liste. Die Wissenschaft hat zu lange auf Quantität statt auf Qualität gesetzt. Geldgeber und Universitäten haben Anreize geschaffen, damit Wissenschaftlerinnen und Wissenschaftler häufig in möglichst vielen hochrangigen Zeitschriften veröffentlichen. Um das zu erreichen, sahen sie sich zur Verschwiegenheit verpflichtet, denn die Konkurrenz in der Forschung ist groß und die Ressourcen sind knapp. Und keiner will den Wettlauf um das letzte Teil eines Forschungspuzzles verlieren. Jeder will der Erste sein, der etwas entdeckt, obwohl das in Wirklichkeit gar nicht so wichtig ist. Das Einzige, was zählt, ist, dass die Wissenschaft Wissen schafft und Probleme behebt. Und dann ist da noch die Verlagsbranche...
Wie ist es um die bestellt?
Masuzzo: Eines der großen Probleme ist die Verzerrung bei der Veröffentlichung. Wenn man positive, „sexy" Ergebnisse hat, sagen die Fachzeitschriften: Klar, die veröffentlichen wir. Ergebnisse, die nicht so positiv sind, werden viel seltener veröffentlicht, obwohl sie genauso wichtig sind. Und dann ist da noch die Sprachbarriere. Der größte Teil der wissenschaftlichen Literatur wird nur in englischer Sprache veröffentlicht, in der Annahme, dass jeder Bürger der Welt sie verstehen kann, was natürlich nicht der Fall ist. Und selbst wenn die breite Öffentlichkeit Englisch versteht, wird ihr der Zugang zu Studien mit Bezahlschranken verwehrt. Bürger, die keine Wissenschaftler sind, müssten aus eigener Tasche bezahlen, um öffentliche Forschungsarbeiten zu lesen, zu denen sie übrigens mit ihren Steuergeldern beigetragen haben. Sie haben also bereits dafür bezahlt. Das ergibt keinen Sinn.
"Wenn man positive, 'sexy' Ergebnisse hat, sagen die Fachzeitschriften: Klar, die veröffentlichen wir. Ergebnisse, die nicht so positiv sind, werden viel seltener veröffentlicht, obwohl sie genauso wichtig sind."
Die Wissenschaft wird also hauptsächlich für eine wissenschaftliche Elite produziert.
Masuzzo: Schauen Sie sich nur die Veröffentlichungen an. Darin gibt es nur Fachterminologie und keine allgemein verständliche Zusammenfassung. Wir haben in der Wissenschaft eine elitäre Kultur aufgebaut, die impliziert: „Wenn du nicht zu dieser Elite gehörst, dann ist die Wissenschaft nichts für dich.“ Ironischerweise ist dieselbe Wissenschaft oft auch nichts für andere Wissenschaftlerinnen und Wissenschaftler, da viele Ergebnisse nicht repliziert werden können. Dies ist ein weiterer Mangel dieser geheimnisvollen Blackbox. Nicht nur, dass unabhängige Forscherinnen und Forscher Studienergebnisse nicht wiederholen können, auch die Forscherinnen und Forscher selbst, die sich für die Studien verantwortlich zeigen, können ihre eigenen Ergebnisse nicht reproduzieren.
Und dazu gesellt sich dann noch eine parasitäre Verlagsindustrie.
Masuzzo: Ich verwende die folgende Analogie, um Freunden das wissenschaftliche Publizieren zu erklären, obwohl das Zitat nicht von mir stammt: Es ist, als ob man in ein Restaurant geht und seine eigenen Zutaten mitbringt. Dann kocht man selbst und serviert sich das Essen am Tisch. Aber bevor man essen kann, wartet schon jemand mit der Rechnung auf einen. Und wir sprechen hier von einer drei- oder vierfach überhöhten Rechnung. Als Wissenschaftlerin oder Wissenschaftler werden wir dafür bezahlt, dass wir forschen, aber nicht dafür, dass wir es veröffentlichen. Wir müssen also für die Veröffentlichung bezahlen, und dabei verlieren wir oft auch das Urheberrecht.
Open Access verspricht, Zeitschriftenbeiträge für jedermann lesbar zu machen. Das löst zwar das Dilemma der Leser, verhindert aber nicht, dass Wissenschaftler ausgebeutet werden, oder?
Masuzzo: Nein, aber Open Access ist nur eine von vielen Komponenten von Open Science. Und es geht um mehr als nur um den freien Zugang zu Forschungsarbeiten für die Öffentlichkeit. Sicher, ich kann Open Access Publikationen lesen, ohne dafür zu bezahlen. Aber es ist auch wichtig, dass die Publikationen mit einer angemessenen Lizenz versehen sind. So kann ich als Wissenschaftlerin das, was ich lese, weiterverwenden, zum Beispiel für Textmining. Das ist nicht möglich, wenn man auf sein Urheberrecht verzichtet und keine offene Lizenz an seine Publikation hängt. Das ist einer der großen Vorteile von Creative Commons, nämlich Lizenzen für Forschungsergebnisse zu vergeben, um das geistige Eigentum zu schützen. Ein Beispiel wäre die CC Attribution-ShareAlike-Lizenz: Forscherinnen können vorhandene Arbeiten in ihre integrieren, müssen aber dieselben Bedingungen zuweisen und die ursprünglichen Autoren nennen. Aber es gibt noch unzählige andere.
Warum gibt es so viele verschiedene Lizenzen?
Masuzzo: Weil es kein Patentrezept für die gemeinsame Nutzung wissenschaftlicher Daten gibt. Wir wollen, dass die Wissenschaft so offen wie möglich und so geschlossen wie nötig ist. Nehmen wir an, es handelt sich um sensible Patientendaten oder sehr spezifische persönliche Daten, die, wenn sie weitergegeben werden, sogar einem Teil der Bevölkerung schaden könnten. Diese Daten darf man nicht weitergeben. Daher bieten die CC-Lizenzen granulare Möglichkeiten, solche Daten und Ergebnisse unter Verschluss zu halten, je nachdem, was offengelegt werden kann.
Müssen Wissenschaftler, die den Weg des Open Access gehen, immer noch für ihre Veröffentlichungen bezahlen?
Masuzzo: Es gibt verschiedene Arten von Open-Access-Veröffentlichungen, und bei einigen sind hohe Bearbeitungsgebühren für die Artikel erforderlich. Einige Wege sind für die Leser kostenlos, andere für die Autoren. Einige sind für beide kostenlos. Wenn Sie sich das Verzeichnis der Open-Access-Zeitschriften ansehen, werden Sie feststellen, dass die große Mehrheit, etwa 70 Prozent der Zeitschriften, keine Gebühren für die Bearbeitung von Artikeln verlangen. Sie werden als diamantene Open-Access-Zeitschriften bezeichnet.
Das mag gut klingen, aber wie viele davon sind hochkarätige Zeitschriften, in denen Wissenschaftler publizieren wollen, um weiterzukommen.
Masuzzo: Wenn es um die Erhöhung des Impact Factors geht – also wie oft man zitiert wird - dann verlangen attraktive Zeitschriften tatsächlich hohe Bearbeitungsgebühren für Beiträge. Nature verlangt bis zu 9.500 Euro pro veröffentlichten Artikel. Das ist ungeheuerlich. Wir von der Open Science Comunity fordern Transparenz. Es soll jeder die Aufschlüsselung dieser Gebühren einsehen können. Natürlich gibt es reale Kosten für die Veröffentlichung, aber Studien schätzen, dass sie im Schnitt zwischen 100 und 200 US-Dollar pro Artikel liegen. Wie kommt man also von geschätzten 150 US-Dollar auf mehr als 10.000 US-Dollar? Das ist mir ein Rätsel.
In Anbetracht dieser Kosten sollte man erwarten, dass man auch Zugriff auf die Studiendaten erhält, nicht?
Masuzzo: Das Geheimhalten von Daten ist Teil dieser mysteriösen Blackbox. Wir können unsere eigenen Ergebnisse oft nicht reproduzieren, und das müssen wir ändern. Der Mindeststandard für wissenschaftliche Gültigkeit ist die Reproduzierbarkeit. Wenn ich dieselben Daten aus einer Studie nehme und dasselbe Analyseverfahren anwende, dann sollte ich zu denselben Ergebnissen kommen. Wenn ich das nicht schaffe, ist es um die Forschung schlecht bestellt. Und gerade deshalb ist Open Data wichtig, um das Vertrauen in die Öffentlichkeit wiederherzustellen, das die Wissenschaft in den letzten Jahrzehnten leider verloren hat. Aber auch Forscher untereinander.
"Wir können unsere eigenen Ergebnisse oft nicht reproduzieren, und das müssen wir ändern. Der Mindeststandard für wissenschaftliche Gültigkeit ist die Reproduzierbarkeit."
Wie das?
Masuzzo: Eine Studie ohne Veröffentlichung der ihr zugrundeliegenden Daten ist nichts mehr als eine PDF-Datei. Das ist per se nicht schlecht, aber es ist und bleibt eine Geschichte, die erzählt, wie man zu einer bestimmten Schlussfolgerung gekommen ist. Als solche ist sie eine Interpretation der Daten. Erst wenn die Daten offenliegen und auch andere Experten zum selben Ergebnis kommen, wird aus der Geschichte fundiertes Wissen. Wenn sich Forscherinnen und Forscher entscheiden, ihre Daten zu veröffentlichen, ebnet das den Weg für Innovationen. Algorithmen oder Menschen können denselben Datensätzen alle möglichen Fragen stellen und verschiedene Analysemethoden anwenden, um weitere Fragen zu beantworten und das gleiche Problem aus vielen verschiedenen Blickwinkeln anzugehen. Wenn wir die Daten nicht veröffentlichen, verlieren wir tatsächlich Geld. Eine Menge Geld.
Wir verlieren Geld?
Masuzzo: Stellen Sie sich vor, wie viel Zeit und Ressourcen Sie in das Sammeln von Daten, die Aufbereitung von Daten, das Bereinigen von Daten, das Erstellen des endgültigen Datenprodukts und das Verfassen, Einreichen und Redigieren ihrer Publikation investieren müssen. Wenn Sie Ihre Daten nicht nach dem FAIR-Prinzip veröffentlichen, dann muss ich den gesamten Prozess noch einmal selbst durchführen. Es kann mehrere Monate dauern, bis ich an einem Punkt ankomme, an dem Sie bereits waren. Das ist eine solche Verschwendung. Es gibt Schätzungen, dass solche überflüssigen wissenschaftlichen Arbeiten allein in Europa zusätzliche Kosten von rund zehn Milliarden Euro pro Jahr verursachen.
Bedeutet FAIR Daten, dass sie für jeden gleichermaßen zugänglich sind?
Masuzzo: Es bedeutet mehr als das: FAIR steht für findable, accessible, interoperable und resuable, also auffindbar, zugänglich, interoperabel und wiederverwendbar. Das bedeutet nicht unbedingt, dass es sich um vollständig offene Daten handelt, aber wenn man sie veröffentlicht, dann gibt es Möglichkeiten, sie im Internet zu finden und zumindest ihre Metadaten einzusehen. Es bedeutet auch, dass die Datensätze mit eindeutigen digitalen Kennungen versehen sind, mit deren Hilfe sie lange Zeit online auffindbar sind, sowie mit klaren Lizenzbedingungen. Dies deckt den Teil "auffindbar, zugänglich und wiederverwendbar" des FAIR-Daten-Akronyms ab. "Interoperabel" bedeutet, dass sie maschinenlesbar sein müssen, damit Algorithmen große, offen zugängliche Datensätze analysieren können. Das lässt Wissen viel schneller wachsen, als es die Menschen alleine je im Stande zu produzieren wären.
"Ich glaube, dass Open Science ein Schritt ist, um die Kluft zwischen Wissenschaftlern und der Öffentlichkeit zu schließen."
Wenn man den Menschen diese Art von Einblick in die Blackbox Wissenschaft gewährt, steht die Wissenschaft schutzlos da. Was bringt das für die Wissenschaft und die Gesellschaft?
Masuzzo: Ich glaube, dass dies ein Schritt ist, um die Kluft zwischen Wissenschaftlern und der Öffentlichkeit zu schließen. Wenn die Menschen der Wissenschaft nicht trauen, dann nicht, weil sie denken, dass die Wissenschaftlerinnen und Wissenschaftler nicht kompetent genug sind, sondern weil sie nicht sicher sind, dass das, was wir tun, in ihrem Interesse ist. Offenheit hilft. Wir müssen die Dinge so sagen, wie sie sind. Wissenschaft ist chaotisch. Die Wissenschaft verändert sich. Sie versucht, sich selbst zu korrigieren, und manchmal gelingt es ihr. Manchmal scheitert sie. Wir sollten nicht vergessen, dass es Menschen sind, die Wissenschaft betreiben. Die Wissenschaft hat viel zu lange den Eindruck vermittelt, dass alle Ergebnisse glänzend und sexy sein müssen. Das ist weit von der Realität entfernt und vermittelt ein falsches Bild. Letzten Endes ist der Beruf des Wissenschaftlers ein Beruf wie jeder andere.
Über Paola Chiara Masuzzo
Paola Chiara Masuzzo ist in Italien geboren und arbeitet als Datenwissenschaftlerin in Belgien, wo sie auch lebt. Masuzzo ist eine Verfechterin von Open Science und unabhängige Forscherin bei IGDORE, wo sie sich für die Öffnung von Forschung und Wissen einsetzt und diese fördert. Sie ist ein großer Fan von Open Data und der Serie Seinfeld. Zusammen mit Yasemin Türkyilmaz-van der Velden ist Masuzzo eine der unabhängigen Juroren für den 2021 Open Research Award von Eurac Research. Sie können ihr auf Twitter folgen unter @pcmasuzzo.
Die Preisträger des Eurac Research Open Research Award 2021
Die beiden Hauptpreise des Open Research Awards gehen an:
Die Gruppe „Language Technologies (LT)“ am Institut für Angewandte Sprachwissenschaft, deren Aufgabenbereich sich über Disziplinen, Sprachen und Gemeinschaften erstreckt und sich in der aktiven Teilnahme und Koordinierung von Initiativen manifestiert, die Menschen zusammenbringen und sie einladen, sich an der Forschung zu beteiligen, um gemeinsam bewährte Verfahren zu gestalten. (zum Interview)
Johannes Rainer, Leiter des Teams „Computational Metabolomics“ am Institut für Biomedizin, der erfolgreiche Werkzeuge und Praktiken für offene, kollaborative und reproduzierbare Forschung etabliert hat und dessen Engagement für einen kollaborativen Ansatz zur Problemlösung die Einstellung von Datenwissenschaftlern am Institut und darüber hinaus in den großen R- und Bioconductor-Gemeinschaften beeinflusst. (zum Interview)
Die beiden Preise für Nachwuchsforscher gehen an:
Alberto Scotti, Institut für Alpine Umwelt, dessen Forschung zu Wasserinsekten als Indikator von Umweltveränderungen dem Ideal der offenen Forschungskultur und dem Ziel der gemeinsamen Nutzung aller Forschungsergebnisse folgt. (zum Interview)
Giulio Genova, Institut für Alpine Umwelt, und Mattia Rossi, Institut für Erdbeobachtung, die gemeinsam Open-Source-Tools entwickelt haben, die es nicht nur Forschern, sondern auch Nutzern mit minimalen Programmierkenntnissen ermöglichen, einfach und effizient auf meteorologische- und Umweltdaten zuzugreifen und diese zu analysieren. (zum Beitrag)