PSI archiviert Daten am CSCS 19.12.2019, 07:31 Uhr

5 Petabytes für das Supercomputerzentrum CSCS in Lugano

Bei Untersuchungen winziger Strukturen mit den Grossforschungsanlagen des PSI fallen riesige Datenmengen an. Diese werden im Supercomputerzentrum CSCS in Lugano archiviert.
Das Bandarchiv des CSCS: Der Roboter zwischen den Regalen kann auf jedes der 3600 Datenbänder zugreifen, auf denen die Daten von wichtigen Experimenten lagern.
(Quelle: CSCS)
Am Freie-Elektronen-Röntgenlaser SwissFEL in Villigen strömt ein winziger Proteinkristall in einer Zahnpastaartigen Masse langsam aus einem Injektor. Ein Laser trifft ihn und löst Bewegungen im Molekül aus. Es verändert seine Struktur – etwa wie wenn eine Katze einen Buckel macht. Eine billionstel Sekunde später durchdringt ein Röntgenlichtpuls die Probe und trifft auf einen Detektor. Damit wird die Strukturänderung des Proteins quasi fotografisch festgehalten. Bei dem so abgelichteten Protein handelt es sich um lichtempfindliches Rhodopsin, das zum Beispiel in der Netzhaut des menschlichen Auges vorkommt. Dessen Strukturveränderung ist der Ausgangspunkt für die Übertragung von Lichtreizen zum Gehirn.
Im Versuchsaufbau treffen pro Sekunde 25 Röntgenlichtpulse auf die Proteinkristalle in der zähflüssigen Masse. Die Pulse dauern nur eine billiardstel Sekunde an und haben eine extrem hohe Dichte an Photonen. Das ermöglicht hochauflösende Bilder von molekularen Strukturen. Am Ende entsteht aus den vielen einzelnen Aufnahmen eine Art Daumenkino von den Bewegungen des Proteins. «Bei derlei präzisen Filmaufnahmen wächst der Datenberg gewaltig in die Höhe», so Leonardo Sala, Gruppenleiter des Bereichs High Performance Computing am PSI. So lieferten die Aufnahmen der Rhodopsin-Proteinkristalle eine Rohdatenmenge von etwa 250 Terabyte. Das ist ungefähr das Tausendfache, das ein handelsüblicher Laptop an Speicherkapazität aufweist.
Nicht nur am SwissFEL, auch an anderen Grossforschungsanlagen wie der Synchrotron Lichtquelle Schweiz SLS oder der Neutronenquelle SINQ führen Fortschritte in der Beschleuniger- und Detektortechnik zu Leistungssteigerungen, wodurch bei Experimenten immer mehr Daten erzeugt werden. So werden derzeit am PSI jährlich bis zu 5 Petabyte Daten produziert. Das entspricht in etwa der Speicherkapazität von einer Million DVDs.

Wohin mit den vielen Daten?

Für diese Datenmengen ist das Rechenzentrum des PSI nicht ausgelegt. Seit 2018 findet die Archivierung von Daten daher am Supercomputerzentrum Centro Svizzero di Calcolo Scientifico (CSCS) in Lugano statt. Das sogenannte Petabyte-Archiv wurde in enger Zusammenarbeit zwischen Kollegen von PSI und CSCS entwickelt. Computerexperten der beiden Einrichtungen arbeiteten eigens einen Managementprozess aus, mit dem digitale Informationen komprimiert, sicher übertragen, archiviert sowie wieder abgerufen und nach Ablauf der mindestens 5-jährigen Archivierungszeit gelöscht werden können. Über ein Glasfaserkabel werden mit einer speziell entwickelten Netzwerkverbindung zwischen PSI und CSCS pro Sekunde 10 Gigabyte Daten übertragen.
Ein Ende der Datenflut ist nicht zu erwarten. Mit der Aufrüstung der SLS zur SLS 2.0 werden künftig noch sehr viel mehr Bits und Bytes produziert. «Wir arbeiten derzeit an einer Prozedur, um dieses Volumen zu reduzieren und komprimieren», sagt Sala. Spezielle Algorithmen sollen die Daten, die von den Detektoren kommen, sortieren, sodass nur noch die für die Forschungsarbeiten relevanten Informationen gespeichert werden. Sala erklärt, weshalb das sinnvoll ist: «Bei der Messung der Proteine an der SLS treffen weniger als 20 Prozent der Röntgenpulse ein Protein und produzieren ein brauchbares Bild.» Die Signale, die kein Ergebnis liefern, müssen also nicht aufwendig gespeichert werden.
Was sich so einfach anhört, ist in der Realität eine gewaltige Herausforderung. «Einem Computer beizubringen, welche Messungen unbrauchbar sind, ist sehr schwierig», räumt denn auch Sala ein. Doch das ist nur der erste Schritt zur Eindämmung der Datenschwemme. Nach dem automatisierten Aussortieren können die IT-Spezialisten das Datenvolumen um den Faktor zehn verringern, indem sie nicht Rohdaten, sondern die zur Endnutzung aufbereiteten Informationen abspeichern.

Autor(in) Christina Bonanati, PSI




Das könnte Sie auch interessieren