Datenspeicherung

Wissenschaft wandert in die Internet-Wolke

30.09.2010

Nicht nur auf privaten Festplatten, sondern auch in der Forschung findet eine Datenexplosion statt. "Cloud Computing", also das Online-Speichern von Daten, ist für Microsoft-Forscher Tony Hey der logische nächste Schritt in der Verarbeitung wissenschaftlicher Ergebnisse.

Dieser Artikel ist älter als ein Jahr!

Wenn im Large Hadron Collider bei Genf kleinste Teilchen auf nahezu Lichtgeschwindigkeit beschleunigt werden, entstehen unglaubliche Datenmengen. 40 Terybyte - also 80 volle 500-GB-Festplatten - an Daten pro Sekunde fallen bei den Messungen an. Deswegen musste vom Kernforschungszentrum CERN extra das "LHC Computing Grid" bauen lassen - ein Datenzentrum, das allein dazu dient, die rauen Mengen an Daten zu verarbeiten und zu speichern.

"Die digitale Datensammlung verändert alles", sagt Microsoft-Wissenschaftler Tony Hey. Er ist einer von 800 Professoren, die im Dienst des Software-Giganten forschen. Heys Spezialgebiet ist die Archivierung von wissenschaftlichen Daten. Im zufolge befinde sich die Forschung im vierten Stadium: Nach der experimentellen Wissenschaft der alten Griechen, theoretischen Wissenschaft, zu der er etwa Isaac Newton zählt und der Computer-Wissenschaft, die seit den 1950er Jahren betireben wird, würde jetzt das 4. Paradigma anbrechen: Die datenintensive Forschung. " Der Digital Sky Survey im Jahr sammelte in einer Woche mehr Daten, als in der gesamten Geschichte der Astronomie angehäuft wurden", verdeutlicht Hey. Aber nicht nur in der Wissenschaft, auch der Staat hätte heute mit wahren Datenlawinen zu tun: "Die Bush-Regierung hat 50 Mal mehr Daten produziert als noch die Clinton-Ära."

Eine Frage des Formats

"Wir müssen Datenmining, die Visualisierung der Daten und vor allem Erhaltung der Daten lernen", sagt Hey. Zwar würden unglaubliche Mengen von wissenschaftlichen Daten erhoben werden (etwa in der Genforschung), doch "nur ein kleiner Teil der Daten ist verfügbar", so der Microsoft-Wissenschaftler. So führt er etwa folgendes Beispiel an: Bei Google Scholar wären nur vier Prozent aller wissenschaftlichen Informationen weltweit abrufbar - ein klarer Seitenhieb gegen den Konkurrenten. Hey schwebt anderes vor: Die Ergebnisse wissenschaftlicher Forschung müssten zentral und frei abrufbar sein. Und zu eben jenen Zweck müssten diese Daten ins Netz wandern. "Die Internet-Wolke wird eine große Rolle in der Datenspeicherung der Zukunft spielen", so Hey.

Bei der Archivierung von Daten sehen sich die Wissenschaftler aber nicht nur mit der menge, sondern auch mit einem Format-Problem konfrontiert. "In zehn Jahren wird die Version der Software, Hardware und Betriebssystem nicht mehr verfügbar sein, die man zum Abrufen der Daten von heute braucht", so Hey. Deswegen müssten eben nicht nur Dateipakete, sondern auch die entsprechenden Programme und Computer, die diese verarbeiten können, archiviert werden. Der Microsoft-Forscher schlägt jetzt vor, das Format XML ("das sieht zwar langweilig aus, ist aber sehr wichtig") ab sofort dafür zu verwenden, um Daten langfristig zugänglich zu machen.

Ab in die Wolke

Wenn sich das so genannte Cloud Computing, also die Online-Speicherung von Daten, durchsetzt, würden wissenschaftliche Ergebnisse interaktiv werden. "Das steht alles erst am Anfang, aber es wird große Player wie Google, Amazon und Microsoft geben, die diese Dienste anbieten", so Hey. Ihm zufolge könnte man dann etwa Experimente mit eigenen Parametern virtuell noch einmal durchführen. Ein Beispiel ist etwa die Software ChronoZoom: Damit kann man sich schon jetzt aus einer Übersicht der Entwicklung des Universums bis zu einzelnen Jahren hineinzoomen und nachsehen, was zu einem bestimmten Zeitpunkt passiert ist. Die Zukunftsvision: Den Zoom immer weiter ausbauen, bis man auf Atomebene gehen kann.

Das Web 2.0 könnte ebenfalls der Wissenschaft dienlich sein: In Online-Netzwerken könnten sich Forscher zusammenschließen und ihre Resultate anderen viel einfacher als bisher zugänglich machen. Heute werden weltweit pro Sekunde drei Papers veröffentlicht - mit sozialen Filtertechniken würden Forscher so sehr schnell und unkompliziert an die für sie wichtigen Dokumente gelangen. Auch Feedback-Prozesse wären in der Clou-Computing-Ära viel effektiver: Denn würden Experimente statt in Laborbüchern in Blogs dokumentiert werden, könnten andere Fehler anmerken und Verbesserungsvorschläge einbringen, bevor wertvolle Zeit verschwendet wird.

Neues Bild der Bibliotheken

Die Speicherung wissenschaftlicher Erkenntnisse in der Internet-Wolke hat eines zur Folge: Bibliotheken müssten sich verändern, denn "schon jetzt ist etwa Google eine ernste Bedrohung für sie", so Hey. Seiner Erfahrung nach würden die einstigen Horte des Wissens heute eher dafür verwendet werden, um sich mit Freunden auf einen Kaffee zu treffen oder das Gratis-WLAN zu nutzen. "Wir haben immer mehr Besucher, die einerseits bei uns online gehen und die Bibliothek andererseits als Lernplatz und sozialen Raum nutzen", sagt etwa Max Kaiser von der Österreichischen Nationalbibliothek. Auch in Österreich wird mit der Digitalisierung der ÖNB-Bestände durch Google vieles online abrufbar - was aber nicht heißt, dass die Daten weg sind, sollten die Google-Server einmal abgedreht werden. Im Bundesrechenzentrum gibt es nach wie vor eine Sicherheitskopie.

(Jakob Steinschaden)

Kommentare