magazine_ Article
Der Schatz im Datenmeer
Die Forschung hat mehr Daten denn je zur Verfügung – und mit Künstlicher Intelligenz auch die Technologie, um daraus möglichst viel Erkenntnis zu gewinnen
Computerprogramme, die aus Daten lernen, sind zu einem Schlüsselinstrument verschiedenster Wissenschaftsbereiche geworden. Forschungsteams des Instituts für Erdbeobachtung entwickeln solche Machine Learning-Systeme, um aus riesigen Mengen Satellitendaten wertvolle Informationen zu gewinnen. So können sie etwa die Schneebedeckung im Lauf eines Winters erfassen oder mit detaillierten Karten nachzeichnen, was in Gebirgsökosystemen geschieht. Übergreifendes Ziel: die Veränderungen besser verstehen, die in unserer Umwelt im Gang sind – und die auf uns zukommen.
Als die Umweltwissenschaftlerin Ruth Sonnenschein vor 15 Jahren Promotionsstudentin an der Humboldt-Universität zu Berlin war, bedeutete jede Satellitenaufnahme eine größere Anschaffung. „Ein Bild kostete 1000 Euro. Da wurde natürlich nur selten eines gekauft, und das analysierten wir dann sehr eingehend, weil es so wertvoll war.“ Auch später in ihrer Forschungsarbeit war Sonnenschein noch häufig auf Satellitenbilder kommerzieller Anbieter angewiesen. Bis die Europäische Union 2015 begann, für ihr Erdbeobachtungsprogramm Copernicus die hochauflösenden Sentinel-Satelliten um den Planeten kreisen zu lassen, womit die Knappheit endlich ein Ende hatte. Heute kann Sonnenschein – so wie jeder, der über die nötigen technischen Mittel verfügt – sich kostenlos so viele Satellitenaufnahmen ansehen, wie sie möchte. Oder wie sie schafft. Denn inzwischen gibt es Bilder in solchen Mengen, „dass kein Mensch mehr die Kapazität hat, sie anzuschauen und zu interpretieren“, wie Sonnenscheins Kollege Alexander Jacob bemerkt. „Das sind immense Datenvolumen. Global gesehen täglich tausende Bilder.“ In unseren Breiten liefern die Sentinel-Satelliten alle zwei bis drei Tage eine neue Aufnahme vom gleichen Ort, und mit höherer oder niedrigerer Frequenz, je nach Lage, von jedem Punkt des Planeten, ohne Unterlass. „Das ist eine Datenflut“, sagt Sonnenschein: „Aber natürlich auch ein Datenschatz.“
Die Frage ist, wie man ihn ausschöpfen kann. Und bei der Antwort darauf „kommt das Machine Learning ins Spiel“, erklärt Jacob: ein Zweig der Künstlichen Intelligenz (KI), der sich in den vergangenen Jahren sehr schnell weiterentwickelt hat – wobei die sehr schnelle Zunahme verfügbarer Daten ein wichtiger Faktor war; heute wird maschinelles Lernen in den verschiedensten Wissenschaftsbereichen eingesetzt, um große Datensätze auszuwerten, neue Zusammenhänge und Muster zu erkennen und um Vorhersagen zu machen.
Kann künstliche Intelligenz uns helfen, den Planeten zu retten?
Es gibt dabei verschiedene Verfahren, doch im Kern erlernt ein Algorithmus, selbstständig eine Aufgabe zu erfüllen. Dafür werden sogenannte neuronale Netze programmiert, komplexe mathematische Strukturen, die die Funktionsweise der vernetzten Nervenzellen im menschlichen Gehirn nachahmen. An gekennzeichneten Daten trainiert, kann diese künstliche Intelligenz das Modell dann auch auf Unbekanntes anwenden und lernt dabei ständig weiter: Während das System mehr und mehr Daten sammelt, verbessert sich seine Leistung. Mithilfe maschinellen Lernens kann die Wissenschaft zum Beispiel ferne Galaxien aufspüren, chemische Verbindungen konzipieren oder die genetischen Ursachen von Krankheiten entschlüsseln (und die gleiche Technologie macht unter anderem auch möglich, dass selbstfahrende Autos Hindernisse erkennen). Im Hinblick auf Klima und Umwelt, so eine Hoffnung, könnte maschinelles Lernen sich für den Menschen als leistungsstarkes Werkzeug erweisen, um der Erderwärmung und ihren Folgen, Biodiversitätsverlust, zunehmender Verschmutzung oder Ressourcenknappheit entgegenzuwirken.
Bei Microsoft jedenfalls ist man überzeugt, dass künstliche Intelligenz uns helfen kann, den Planeten zu retten. 2017 hat das Unternehmen die Initiative „AI for Earth“ geschaffen, um Anwendungen künstlicher Intelligenz, die ökologischer Nachhaltigkeit dienen, möglichst breit zugänglich zu machen. 50 Millionen Dollar wurden für einen Zeitraum von fünf Jahren bereitgestellt – vor allem, um Forschung zu unterstützen, die solche Anwendungen entwickelt. Sonnenschein und Jacob haben mit ihrem Team vor ein paar Monaten so eine Microsoft-Forschungsförderung gewonnen. Ihr Vorhaben: Methoden maschinellen Lernens zu entwickeln, mit deren Hilfe man Gebirgsökosysteme detailliert kartieren und Veränderung nachzeichnen kann. Die einzige derzeit verfügbare globale Ökosystemkarte hat eine Auflösung von 250 Metern, womit sie von Berggebieten, wo sich manchmal auf relativ kleiner Fläche so unterschiedliche Welten wie Gipfel und Talböden finden, nur ein sehr verschwommenes Bild zeichnet. Zudem ist die Karte statisch; Entwicklungen – etwa die zunehmende Fragmentierung von Ökosystemen, die eine wichtige Rolle beim Biodiversitätsverlust spielt – sind nicht abzulesen. Ein System, das kontinuierlich aktuelle Satellitendaten einbezieht, sollen nun sehr präzise Karten (in einer Auflösung von 30 Metern) ermöglichen, die auch Veränderungen in der Zeit sichtbar machen.
Zentrale Faktoren des Fortschritts: Astronomische Datenmengen und ein großer Sprung in der Rechenleistung von Computern
Der Microsoft-Grant bringt dem Forschungsteam dabei nicht nur 100.000 Dollar, um Arbeitszeit und Reisen zu finanzieren, sondern vor allem (über credits von nochmal 100.000 Dollar) Zugang zu immensen Rechenressourcen in der Microsoft Cloud. „Müssten wir die Hardware anschaffen, die wir für dieses Projekt benötigen, wären das wahrscheinlich annähernd 300.000 Euro“, erklärt Jacob. Der große Sprung in der Rechenleistung von Computern ist neben den astronomischen Datenmengen, die ständig und überall gesammelt werden, einer der zentralen Gründe dafür, dass neuronale Netze heute Leistungen erbringen können, die noch vor einigen Jahren als unrealistisch galten. Anschaulich vor Augen führt diesen Fortschritt ein anderer Forscher des Instituts für Erdbeobachtung, Carlo Marin, und zwar am Beispiel Schach: „Schon 1997 besiegte ein Computer, der Millionen von Positionen einschätzen konnte, den amtierenden Weltmeister Kasparow. Heute kann ein Programm aus relativ wenigen Beispielen die Gesetzmäßigkeiten des Spiels ableiten und in einer Partie eigene Strategien entwickeln.“
Wie Sonnenschein und Jacob entwickelt Marin intelligente Algorithmen, um Satellitendaten möglichst effizient zum Erkenntnisgewinn zu nutzen; in seinem Fall geht es aber um ein genaueres Verständnis der Vorgänge in der alpinen Kryosphäre – Marins Forschungsthema sind Gletscher, Schnee und Permafrost. Daten effizient zu nutzen, kann dabei auch bedeuten, Datenlücken zu füllen. Ein Problem dieser Art hat Marins Team mit Hilfe maschinellen Lernens gelöst, um Aussagen zur Schneebedeckung im Lauf eine Winters in Südtirol zu treffen. Denn was tun, wenn Satellitenaufnahmen zum Beispiel zeigen, dass es rund um Bozen geschneit hat, zu den Sarner Bergen aber keine Informationen liefern, weil diese unter Wolken verborgen waren, als der Satellit über Südtirol hinweg zog? Wie wahrscheinlich ist es, dass auch auf diesen Gipfeln Schnee fiel? Marin und seine Kollegen entwickelten ein System, das solche Fragen beantworten hilft, indem es sämtliche aus der Vergangenheit verfügbaren Korrelationen zwischen Orten der Provinz zu Rate zieht. Kombiniert mit anderen Beobachtungen und Methoden, gelangten sie so zu einer sehr viel genaueren Schätzung. „Was vor allem deshalb wichtig ist, weil Schnee Wasser speichert. Wenn wir wissen, wie viel Schnee gefallen ist, können wir der Provinzverwaltung sagen, wie viel nach der Schmelze für Bewässerung und Energiegewinnung zur Verfügung stehen wird, und sie kann die angemessenen planerischen Entscheidungen treffen.“ Letztlich sei das Ziel beim Einsatz von KI in seinem Forschungsbereich immer dasselbe: „Die Vorgänge der Vergangenheit und Gegenwart analysieren, um so die zugrundeliegenden Prozesse und Dynamiken möglichst genau zu verstehen – und damit auch ableiten zu können, was in Zukunft geschehen wird.“
Dass das Werkzeug KI dabei ein Game Changer ist, steht für ihn außer Zweifel; doch bleibe es immer ein Werkzeug, betont er, die Forschung übernehmen könne es nicht: „Grundlage ist unser Verständnis der physikalischen Zusammenhänge. Man kann es so ausdrücken: Wir geben unser Wissen an den Computer weiter, und er hilft uns bei der Interpretation der Daten.“ Derzeit nutzt er das Instrument des Machine Learning unter anderem in einem großen Projekt mit der Europäischen Raumfahrtagentur ESA, das die Rolle des Schnees im globalen Klimasystem untersucht. Die für Südtirol entwickelte Methode, die Wahrscheinlichkeit von Schnee für einen Ort zu bestimmen, wenn keine direkte Beobachtung vorliegt, wird das Forschungsteam demnächst auch auf andere Gebiete anwenden: Bei Marin gingen schon entsprechende Anfragen ein.
In mehreren Forschungsprojekten des Instituts für Erdbeobachtung kommt maschinelles Lernen zum Einsatz.
Ein Großprojekt mit der europäischen Weltraumorganisation ESA hat das Ziel, die Rolle von Schnee in globalen Klimadynamiken besser zu verstehen, und nimmt dafür die gesamte Erde über den Zeitraum der vergangenen vierzig Jahre in den Blick: https://climate.esa.int/en/projects/snow/ Um eine möglichst genaue Erfassung der Schneedecke und ihrer Eigenschaften geht es auch im Projekt Alpsnow, der Fokus liegt hier aber auf den Alpen: https://alpsnow.enveo.at/
Ein System zur genaueren Kartierung von Bergökosystemen, das auch Veränderungen in der Zeit sichtbar macht, entwickelt das Projekt AI4EBV; besonderes Augenmerk liegt dabei auf den essenziellen Biodiversitätsvariablen (Essential Biodiversity Variables, EBVs) Ausdehnung und Fragmentierung von Ökosystemen: https://ai4ebv.eurac.edu/