magazine_ Article
Software aus Bozen hat die genetische Forschung weltweit revolutioniert
Die Erfolgsgeschichte einer Methode, die zur internationalen Standard-Technologie wurde
Das Genom eines einzelnen Menschen vollständig zu sequenzieren ist heute immer noch aufwändig und kostenintensiv. Doch mit der Technologie, die ein Forscherteam von Eurac Research und Medizin Uni Innsbruck entwickelt hat, werden DNA-Analysen drastisch vereinfacht und die Kosten um das 50-100fache verringert. Die derzeit weltweit größte Sequenzier-Studie greift auf die Technologie aus Bozen zurück.
Die Genome von mehr als 53.000 Menschen wurden vom Forschungskonsortium TOPMed mit Sitz in Washington USA in einer ersten Studienphase sequenziert. Es sind Menschen aus der US-amerikanischen Allgemeinbevölkerung – unterschiedlicher Abstammung, zum Teil mit gutem Gesundheitszustand, zum Teil auch unter Erkrankungen leidend. Ein Genom zu sequenzieren bedeutet, alle drei Milliarden Positionen des Genoms zu entschlüsseln. Die groß angelegte Studie, an der mehr als 30 Arbeitsgruppen forschen, untersucht die genetischen Ursachen von Herz-, Lungen-, Blut- und Schlafstörungen. Das Ergebnis: Während 2,6 Milliarden Positionen im Genom der Menschen identisch sind, konnte die Forschergruppe beim Sequenzieren rund 400 Millionen Varianten, also Positionen identifizieren, in denen sich die Genome der Personen unterscheiden. Dieser Datensatz bildet nun die Grundlage, um weiter zu erforschen, inwieweit die Varianten im Zusammenhang mit bestimmten Erkrankungen stehen. Kennt man diese genetischen Risikofaktoren, lässt sich die Diagnose, die Behandlung und die Prävention der entsprechenden Krankheiten um ein Vielfaches verbessern.
Nun gibt es eine fundamentale Neuerung im bioinformatischen Bereich, die es möglich macht, die genetischen Daten einer Vielzahl von Menschen in relativ kurzer Zeit zu untersuchen: Es ist das so genannte „Imputieren“ – ein mathematisches Verfahren, mit dessen Hilfe es reicht, nur einen Teil des Genoms tatsächlich zu messen; der restliche Teil wird „aufgefüllt“ beziehungsweise hochgerechnet. Den zugrunde liegenden Algorithmus arbeitete der Südtiroler Bioinformatiker Christian Fuchsberger aus, der am Institut für Biomedizin von Eurac Research tätig ist. Dank der neuen Methode ist die Forschungsarbeit mit den enormen Datenmengen beim Sequenzieren drastisch vereinfacht worden, und zudem können die Kosten der DNA-Analyse damit deutlich reduziert werden. Ein kurzer Rückblick: Die vollständige Sequenzierung eines einzigen menschlichen Genoms dauerte vor zehn Jahren noch zwanzig Tage, heute ist sie innerhalb eines Tages machbar, kostet immerhin aber noch rund 1.000 Euro für jedes Genom. Aufgrund der großen Datenmenge ist die Entschlüsselung immer noch aufwändig und rechenintensiv und bedarf spezieller Technologien wie des Next Generation Sequencing, das eine sehr große Anzahl von DNA-Molekülen parallel sequenzieren kann. Das Ergebnis beim Imputieren ist nicht zu hundert Prozent exakt gleich wie bei einer Sequenzierung, doch können alle Positionen des Genoms mit sehr hoher Wahrscheinlichkeit bestimmt werden, und die Kosten verringern sich um das 50-100fache im Vergleich zum vollständigen Sequenzieren.
Um die Forschung zu den genetischen Risikofaktoren voranzutreiben, wandte sich das TOPMed Konsortium an das Institut für Biomedizin von Eurac Research und das Institut für Genetische Epidemiologie der Medizinischen Universität Innsbruck. Die beiden Institute sind Experten auf dem Gebiet von „Big Data” und betreiben seit Jahren einen der größten bioinformatischen Web-Services, der auf dem in Bozen entwickelten Algorithmus basiert. Sie sollten die geeignete Technologie beisteuern, so dass das Konsortium seine gesammelten Daten auch anderen Forschungsgruppen zugänglich machen konnte. Auch die technologische Weiterentwicklung des Web-Service liegt in den Händen von Christian Fuchsberger. „Das Imputieren ist technologisch gesehen ein sehr rechenintensiver Schritt, der mit einem normalen Rechner bislang nicht möglich war. Wir haben die Technologie nun verfeinert, so dass Forscherinnen und Forscher von ihrem eigenen Rechner aus auf möglichst einfachem Weg auf den Service zugreifen können“, so Fuchsberger. Die Erfolgsgeschichte vom Algorithmus zur Software bis hin zum gefragten Web-Service, hat Fuchsberger von Anfang an mitgeschrieben. „Die Entwicklung unserer Software auf der Basis des Algorithmus ist schnell auf internationales Interesse gestoßen: Kurze Zeit nach dem Publizieren der Arbeit haben sich die Betreiber der weltweit am meisten genutzten Programme zur DNA-Analyse gemeldet und angefragt, ob sie unsere Software in ihre Programme integrieren dürfen“, erzählt er. Gemeinsam mit Fachkollegen des Instituts für Genetische Epidemiologie der Medizinischen Uni Innsbruck arbeitete Fuchsberger in den vergangenen Jahren ständig weiter daran, den Web-Service zu verbessern und den fortlaufenden Anfragen von internationalen Forschungsgruppen entsprechend anzupassen. Der Web-Service wurde mit den Datenbanken großer Sequenzierstudien verknüpft – mit den genetischen Daten von mittlerweile 97.000 Menschen ist jene der TOPMed-Studie derzeit die größte. Die Software greift beim Imputieren auf die Datenbanken zurück und vervollständigt die eingespeisten bruchstückhaften Genomanalysen. Immer mehr Forschungskonsortien wenden sich an das Team rund um Fuchsberger, um ihre Daten integrieren zu können. Besonders wichtig sind dabei Datenschutz und Datensicherheit. Auch hier fand das Team einen Weg, so dass die Forschungsgemeinschaft von den Datenbanken profitieren kann, die einzelnen Daten aber geheim bleiben. „Wir haben den Webservice weiterentwickelt, so dass ein Nutzer nur seine eigenen Daten hochlädt und seine Sequenzierung zurückbekommt, ohne dass er je auf die Rohdaten der anderen in den Datenbanken gesammelten Studien kommt“, führt Fuchsberger aus.
Im Moment besteht der Server, auf den der Web-Service zurückgreift, aus über 1.500 Prozessoren, auf denen die Imputationen parallel ausgeführt werden. Bisher haben 1.200 Nutzer aus der Forschungswelt den Web-Service in Anspruch genommen. Sie haben die Genome von mehr als 13 Millionen Menschen mit der Software imputiert.
Link zum Imputations-Server, wie er für TOPMed bereitgestellt wurde: https://imputation.biodatacatalyst.nhlbi.nih.gov/#!