Computer entdeckt 100.000 Viren in alten Gendaten
Der Wissenschaft ist nur ein Bruchteil der Viren auf unserem Planeten bekannt. Nun hat ein internationales Forscher*innenteam dieses Wissen erweitert und mithilfe einer öffentlichen Sequenzdatenbank mit einer enormen Menge an genetischen Daten über 100.000 neue RNA-Viren entdeckt.
Bei 9 davon handelt es sich um unbekannte Coronaviren - mehr als 300 sind mit dem Hepatitis-Delta-Virus (HDV) verwandt, die etwa Leberversagen auslösen kann. Auch neuartige Bakteriophagen, also gegen Bakterien gerichtete Viren, konnten identifiziert werden.
Enorme Datenmenge
Durchforstet wurden Daten einer öffentlichen, globalen Sequenzdatenbank, die von den US National Institutes of Health hochgeladen wurde. Sie enthält 16 Petabyte archivierte Sequenzen, die von unterschiedlichen genetischen Untersuchungen stammen. Die Größenordnung von Petabytes entspricht Millionen von Gigabytes.
Da diese enorme Menge an Daten aufwendig durchforstet werden müsste, um neue Viren zu identifizieren, hat das Team eine Cloud-Computing-Infrastruktur entwickelt, womit ein Sequenzabgleich in Petybyte-Größenordnung möglich wird. Ihre Analyse könne laut dem Computerbiologen Artem Babaian von der University of Cambridge viel schneller vonstattengehen, "als es jemand je gedacht hätte".
Verzehnfachung bekannter Virenspezies
Die identifizierte Menge neuer biologischer Viren entspricht etwa einer Verzehnfachung der bekannten Virenspezies. Die Daten wurden öffentlich verfügbar gemacht, sodass Wissenschaftler*innen weltweit darauf zugreifen und sie weiter untersuchen können.
Die Studie wurde im Journal Nature veröffentlicht.