Forschungsdatenmanagement mit LinkAhead

Sind Daten das Öl des einundzwanzigsten Jahrhunderts? Solche oder ähnliche Fragen werden derzeit häufig gestellt.1 Insbesondere in Deutschland und der EU wird in den letzten Jahren die Nutzbarmachung und Vernetzung von Datenbeständen gefordert und teilweise auch gefördert. Wir, ein junges Unternehmen mit dem Fokus auf Datenverwaltung2 wollen einen kurzen Einblick in Status Quo und einen Blick in die Zukunft von Forschungsdatenmanagement in Deutschland geben.

Forschungsdatenmanagement: Data Life Cycle am Beispiel von LinkAhead

Status Quo Forschungsdatenmanagement 2022

Die IT vieler Universitäten und Hochschulen in Deutschland ist oftmals ein Flickenteppich: Vererbte Systeme alter und veralteter Software, ein Mangel an Personal, schlechte Vernetzung der Datenstrukturen bei stetig wachsenden Ansprüchen und Datenmengen. An vielen Institutionen sind Behelfslösungen zur Standardpraxis geworden: Der routinemäßige Transport von Daten via USB-Sticks, manuelles Kopieren von Informationen in und aus Excel, unzureichende Verknüpfungen mit wissenschaftlichen Geräten und so weiter. Auch die Produktion von Papierbergen ist an vielen Orten noch gängige Praxis, beispielsweise bei der Nutzung von Laborbüchern. Universitäten nutzen unterschiedliche Standards, die Kollaboration erschweren und verlangsamen.

So wie der Triumphzug von Informationstechnologien in der Gesellschaft von Wachstumsschmerzen vielerlei Art begleitet wird, so hat auch der Aufbau der IT-Infrastrukturen in der Wissenschaft noch Raum für Verbesserungen. Die bestehenden Behelfslösungen zu überwinden kann noch Jahre oder Jahrzehnte dauern, aber die Software-Standards werden derzeit gesetzt. Die Lösungen die gerade erstellt werden um die klaffenden Lücken zu füllen sind vielseitig: Unterschiedlich lizenzierte Software, insbesondere closed und open source, aus diversen Projekten entwickelt von Kleingruppen bis zu ganzen Instituten und aus weltweite verbreiteten Projekten wird miteinander kombiniert.

Die FAIR Prinzipien

Die Abkürzung FAIR steht für Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel) und Reusable (wiederverwendbar). Weltweit gibt es Anstrengungen, künftige Forschungsdatensysteme nach diesen Prinzipien auszurichten. 3

Präzise Versionskontrolle hilft im Forschungsdatenmanagement Datensätze trotz neuer Versionen unverändert wiederfindbar und weiternutzbar zu machen

Forschungsdaten sind ungehobene Schätze

Die Software-Standards zukünftig auf eine solide Basis zu stellen ist eine der größten derzeitigen Aufgaben. Wissenschaftler:innen der Vergangenheit und Gegenwart eint die Hoffnung und das Vertrauen, dass kommende Generationen auf ihrer Arbeit aufbauen können. Der Wert der Daten, die durch Personen erhoben wurden die schon seit Jahrzehnten tot sind, wird zum Beispiel bei historischen Wetterdaten im Kontext zu Forschungsfragen zum Klimawandel deutlich. Doch viele wertvolle historische Daten sind schwer zugänglich, in veralteten Formaten oder gar Papierform und bedürfen einiger Anstrengung sie zugänglich zu machen. Die Aufgabe des Forschungsdatenmanagement ist es hier, die Datenerhebung zukunftsorientiert zu machen, sodass alle Daten, die heute erhoben werden, in der Zukunft nahtlos weitergenutzt werden können. Hier gilt es eine Lücke schwer verfügbarer historischer Daten zu schließen. Wie und wo diese historischen Daten vorhanden sind, ist oftmals klar, der Aufwand und die Kapazitäten zu finden diese zu digitalisieren oftmals nicht. Zukunftsorientiert sind Systeme mit offenen Schnittstellen und Programme, die sich leicht anpassen lassen um Daten in neue, offene Formate zu überführen. Damit sollte umständliches Ausgraben der Schätze in Zukunft überflüssig werden.

In unserem Structured-Data-Workshop können Sie von unseren FDM-Expert:innen lernen, wie sie die ungehobenen Schätze in Ihren Bestandsdaten erreichen und wie sie zukünftige Daten optimal zur Weiternutzung aufbereiten.

Wie sollte das Forschungsdatenmanagement der Zukunft aussehen?

Wissen schaffen nach den bereits genannten FAIR Prinzipien könnte im Sinne des Forschungsdatenmanagement idealerweise so aussehen: Alle Bestandteile der Abläufe basieren auf Open Source Software und es gibt offene Schnittstellen die neue Abläufe und neue Daten einfach an bestehende Prozesse angliedern lassen. Die Forschenden haben eine einfache und intuitive Oberfläche, und müssen sich in der Mehrzahl nicht mit den Funktionsweisen der Backends auseinandersetzen sondern können sich auf die wissenschaftliche Arbeit konzentrieren. Das Management der Forschungsdaten funktioniert automatisch im Hintergrund: Daten werden automatisch archiviert, ihr Zugriff wird technisch geregelt und ist fein justierbar.Das Resultat: Rohdaten, ihre Analysen, weiter Analysen darauf usw. sind bis zur Publikation sind miteinander auf transparente Weise verknüpft (siehe dieses Fallbeispiel). Dadurch und durch die offenen Standards wird Kollaboration vereinfacht und eine Nachvollziehbarkeit der Datenerzeugung und Nutzung gegeben. Damit die gerade genannten Forschungsdaten ideal für die Zukunft aufbewahrt werden, müssen diese in der Forschungsdatenmanagementsoftware in ihrem ursprünglichen Kontext transparent und zusammenhängend aufbewahrt werden. Dies erleichtert es später Datenursprünge nachzuvollziehen (Stichwort Reproduzierbarkeitskrise) und Forschungsdaten für weitere Forschung erneut zu nutzen.

Wie soll ein Eintrag aussehen? Forschungsdatenmanagementsoftware LinkAhead erlaubt Flexibilität im Datenmodell

Die genutzte Software ist Open Source und damit zukunftssicher: Es unterliegt der Entscheidung der Nutzenden, also Forschenden und Forschungsinstituten, wen sie mit Wartung und Weiterentwicklung beauftragen und ob sie Teile selbst entwickeln. Proprietäre Spezialsoftware Firmen für besondere Anwendungen sollte genauestens dokumentiert und archiviert werden, und idealerweise in der Zukunft umgestellt auf einen offenen Standard gewechselt werden. Ansonsten droht, dass die Software in ein paar Jahren nur noch schwer verfügbar sein könnte. Wenn Softwareprojekte nicht weitergeführt werden, die sich in produktiver Verwendung befinden, ist dies immer ein Problem. Anders als bei Closed Source Software hängt bei Open Source die Entscheidung ob und wie ein Projekt weitergeführt wird jedoch nicht allein von den finanziellen Interessen einer einzelnen Firma ab.

IndiScale und LinkAhead

Das Potential im Forschungsdatenmanagement zu nutzen ist die Mission, die sich Mitarbeitende von IndiScale seit 2012 (zunächst als Forschende am Max-Planck-Institut für Dynamik und Selbstorganisation in Göttingen, ab 2019 dann bei IndiScale) gegeben haben. Wir möchten den Weg, den Forschungsdatenmanagementsoftware geht, beeinflussen und formen. Wir sehen uns als Teil der Open Source Bewegung, die mithilfe von offenen Standards und Lizenzen die Kontrolle über die Softwarewerkzeuge die wir alltäglich nutzen wiedererlangen möchte. Software sollte unter der Kontrolle der Nutzer:innen sein, das heißt der Code muss offen zugänglich und der Zugang und die Nutzungsrechte selbstbestimmt geschehen, ohne Bindung an Nutzungsbedingungen und Weiterverwertung durch Konzerne, wenn das nicht erwünscht ist. Dabei soll Software so frei wie die Wissenschaft sein: Frei zugänglich und verfügbar für alle. Deshalb entwickeln wir die Open Source Forschungsdatenmanagementsoftware CaosDB, ein Werkzeug, das wir uns selbst als Forschende gewünscht hätten, und stellen für den professionellen Einsatz die CaosDB Distribution LinkAhead für unsere Kund:innen bereit.

1https://www.deutschlandfunkkultur.de/malte-spitz-daten-das-oel-des-21-jahrhunderts-ueber-die-100.html

2https://www.indiscale.com/our-services/

3https://www.go-fair.org/go-fair-initiative/go-fair-offices/