Langzeitarchivierung von Forschungsdaten in den Geisteswissenschaften. Bedürfnisse von Forschenden und Möglichkeiten der Universitätsbibliothek Bern
Langzeitarchivierung von Forschungsdaten in den Geisteswissenschaften. Bedürfnisse von Forschenden und Möglichkeiten der Universitätsbibliothek Bern
Informationswissenschaft: Theorie, Methode und Praxis, vol. 6, núm. 1, pp. 245-260, 2020
Universität Bern

Neue Forderungen, neue Bedürfnisse?
Forschende werden in den letzten Jahren durch Auflagen von forschungsfördernden Institutionen mit einschneidenden Veränderungen konfrontiert. Grundlage für diese Auflagen ist die Open Access1Bewegung. Während eine Forschungsdaten-Policy an der Universität Bern noch aussteht, stellen andere Institutionen bereits konkrete For- derungen: Nicht nur sollen bis 2020 alle vom Schweizerischen Nationalfonds (SNF) geförderten Publikationen Open Access zur Verfügung stehen, seit Oktober 2017 betrifft dies auch Forschungsdaten, sofern ihrer Veröffentlichung keine rechtlichen, ethschen oder urheberrechtlichen Gründe widersprechen.2 Beim Einreichen des Projek- tantrags wird verlangt, einen Data Management Plan (DMP) auszufüllen, der unter anderem festhält, wann und wo welche im Projekt entstehenden Daten publiziert und archiviert werden sollen. Forschende, die sich bisher nicht mit der Thematik befasst haben, stehen somit vor einer gewaltigen Aufgabe, die viele Fragen und Unsicherhei- ten mit sich bringt.
Ein Bereich davon betrifft die digitale Langzeitarchivierung (LZA).3 Als problematisch zu betrachten ist, dass die bestehenden Angebote für die LZA « […] die sich abzeichnende breite Anforderungspalette geisteswissenschaftlicher digitaler For- schung noch nicht vollständig»4 erfüllen.
Die Aktualität des Themas LZA zeigt sich beispielsweise an Veranstaltungen wie der Tagung «Editions- und Forschungsplattformen zum 18. Jahrhundert» des Historischen Instituts der Universität Bern vom 8. Mai 2019. Nachhaltigkeit und LZA tauchten als Leitthemen immer wieder auf und Teilnehmende der Konferenz bezeichneten Universitätsbibliotheken in diesen Bereichen als potenzielle Partner. Dies ist berechtigt, da die Gewährleistung eines langfristigen Erhalts von Informationen und auch von deren Benutzbarkeit eine traditionelle Kernaufgabe von Universitätsbiblio- theken darstellt und Forschende eine der Hauptzielgruppen der Universitätsbibliothek Bern (UB Bern) sind. In diesem Sinne will die UB Bern Forschende bei neuen Auf- gaben begleiten und dazu das Dienstleistungsangebot erweitern, unter anderem im Bereich der LZA.
Aber welche Unterstützung benötigen die Forschenden? Was soll und kann die UB Bern in Bezug auf Fragen der LZA von Forschungsdaten leisten?
Fragestellung und Methodik der Masterarbeit
Die Bedürfnisse der eigenen Forschenden an der UB Bern waren bisher unbekannt. Deshalb hat die Masterarbeit, die vorliegendem Artikel vorangeht, einen ersten Vorstoss im Bereich der Geisteswissenschaften unternommen.
Im Zentrum der Masterarbeit standen zwei Fragenkomplexe. Einerseits, welche Art von Forschungsdaten bei den untersuchten Fallbeispielen vorhanden sind und welche Bedürfnisse im Kontext der LZA bestehen und andererseits, welche Möglich- keiten die UB Bern hat, um auf die vorgefundenen Bedürfnisse zu reagieren.
Um den ersten Fragekomplex zu untersuchen, wurden teilstrukturierte Interviews5 mit Forschenden durchgeführt. Die untersuchten Forschungsprojekte stammen aus den klassischen Disziplinen Geschichte, Sprach- und Literaturwissenschaften der Phil.-Hist.-Fakultät der Universität Bern.6 Dabei zielte die Auswahl der wenigen Fall- beispiele nicht auf eine Repräsentativität in statistischem Sinne ab, sondern auf eine konkrete Betrachtung der Fälle in ihrem jeweiligen Umfeld. Für die Interviews wurden vorgängig Leitfäden7 und Einwilligungserklärungen8 vorbereitet und während den Gesprächen Audioaufnahmen aufgezeichnet. Bei der anschliessenden Verschrift- lichung der Aufzeichnungen wurde eine formale Anonymisierung9 der teilnehmenden Personen vorgenommen. Der zweite Fragekomplex wurde anhand eines Vergleichs mit anderen Institutionen in der Schweiz und einem abteilungsübergreifenden Austausch mit UB Bern-Mitarbeitenden betrachtet.
Vorliegender Artikel stellt in Kombination mit einzelnen theoretischen Aspek- ten ausgewählte Ergebnisse dieser Masterarbeit vor.10
Während es bei der Bestandserhaltung von analogen Medien um den «Substanzerhalt des jeweiligen Objekts»,11 also zum Beispiel um die materielle Erhaltung eines Buches geht, damit die Inhalte lesbar bleiben, bestehen bei der Erhaltung von digitalen Inhalten zusätzliche Herausforderungen.
Bei der LZA von digitalen Medien geht es einerseits um den Erhalt der Daten. Dauerhaft kann dies nur getrennt vom originalen Datenträger und damit unabhängig von dessen unbestimmter Lebensdauer gewährleistet werden.12 Deshalb müssen die verwendeten Datenträger regelmässig durch neue ersetzt werden. Die Daten sollten redundant – also in mehrfacher Kopie – vorliegen, wobei die Kopien räumlich getrennt und auf unterschiedlichen Datenträgern aufbewahrt werden sollten.13
Andererseits geht es auch um den Erhalt der Benutzbarkeit, denn um die erhal- tenen Daten auch nutzen zu können, «muss eine aufeinander abgestimmte Kombination aus Hard- und Software zur Verfügung stehen».14 Dies wird dadurch erschwert, dass sowohl Softwie auch Hardware den Entwicklungen des Marktes unterworfen sind und sich dadurch schnell verändern, bzw. durch neue technologische Entwick- lungen abgelöst werden.
Zudem müssen unterschiedliche Kontextinformationen mit den Daten, die langzeitarchiviert werden sollen, mitgespeichert werden. Beispielsweise technische Metadaten, um eine automatische Bearbeitung und Verwaltung bei der Umsetzung von Erhaltungsstrategien zu ermöglichen15 oder bibliographische Metadaten, damit Daten über «grundlegende soziokulturelle Wandlungsprozesse hinaus»16 nutzbar und interpretierbar bleiben.
Zur Erfüllung einer digitalen LZA stehen unterschiedliche Strategien zur Verfügung.17 Grundlegend für alle weiteren Schritte ist die Bitstream-Preservation. Diese entspricht der oben beschriebenen Speicherung und Erhaltung des Datenstroms (Bitstream). Darauf aufbauend sind die Strategien der (Format-)Migration und Emulation am verbreitetsten, welche langfristig die Benutzbarkeit der Daten ermöglichen. Bei der Migration werden die Objekte dem neuen Umfeld angepasst, wobei in aktuelle, weit verbreitete, nicht proprietäre Formate migriert wird. Dazu ist langfristig ein personell und finanziell aufwändiger Einsatz notwendig, da Migrationsentscheidungen im laufenden Archivbetrieb von geschulten Personen getroffen werden müssen.
Die Emulation geht noch einen Schritt weiter, indem sie für die Objekte deren originales Umfeld simuliert. Dazu werden ganze Softwarepakete zusammen mit den zu archivierenden Dateien in einer Umgebung gespeichert, welche die Rechnerarchitektur der Originalumgebung der Software nachbilden. Dies ist die aufwändigste der genannten Strategien.
Langzeitarchivierende Institutionen können sich dazu am Open Archival Information System (OAIS)-Referenz-Modell orientieren.18 Es beschreibt, wie digitale Objekte, oft in Verbindung mit der Migrations-Strategie, für eine spezifische künftige Nutzergruppe erhalten werden sollten. Dazu gehören neben einem einheitlichen Vokabular auch ein Datenmodell, ein funktionales Modell sowie ein Überblick zu den Aufgaben, welche die Institution bzw. das Team, das für ein Langzeitarchiv verant- wortlich ist, erfüllen muss.
Geisteswissenschaftliche Forschungsdaten und die Zeit
Weil sich geisteswissenschaftliche Forschungsdaten häufig in ihrer Art, Entstehung und Verwendung von nicht-geisteswissenschaftlichen Forschungsdaten unterscheiden, werden sie von gängigen Definitionen für Forschungsdaten nur unzureichend erfasst.19 Eine eindeutige Definition geisteswissenschaftlicher Forschungsdaten gestaltet sich jedoch schwierig. So bezeichnen Cremer u.a. aufgrund der unterschiedlichen Praktiken und Perspektiven die Forschungsdaten in den Geisteswissenschaften als «vielgestaltiges Mischwesen».20 Eine verbreitete Definition ist diejenige des geistes- wissenschaftlichen Infrastrukturprojekts Digital Research Infrastructure for the Arts and Humanities Deutschland (DARIAH-DE):
Unter digitalen geistes-und kulturwissenschaftlichen Forschungsdaten werden innerhalb von DARIAH-DE all jene Quellen/Materialien und Ergebnisse verstanden, die im Kontext einer geistes- und kulturwissenschaftlichen Forschungsfrage gesammelt, erzeugt, beschrieben und/oder ausgewertet werden und in maschinenlesbarer Form zum Zwecke der Archivierung, Zitierbarkeit und zur weiteren Verarbeitung aufbewahrt werden können.21
Der SNF empfiehlt, Daten, die während des Forschungsprozesses produziert werden, in öffentlich zugänglichen Repositorien22 für Forschungsdaten zu publizieren. Hierfür stellt der SNF eine Checkliste23 zur Auswahl fachspezifischer Repositorien zur Verfügung und schlägt alternativ vier fachübergreifende Repositorien vor, darunter auch Zenodo.24 Zenodo erfüllt die vom SNF geforderten Kriterien für eine langfristige Sicherung der Daten, übernimmt hingegen keine Verantwortung für deren langfristige Benutzbarkeit und Interpretierbarkeit.25 Dies entspricht einem eher kurz- bis mittel-fristigen Zeithorizont für eine mögliche Verwendung der Daten. Dieser Ansatz ist jedoch im Forschungsdatenmanagement26 verbreitet, auch die Deutsche Forschungsge- meinschaft gibt für die Aufbewahrung von Forschungsdaten nur zehn Jahre als Minimum vor.27 Geisteswissenschaftliche Forschungsdaten sind aber «nicht für einen bestimmten Zeitraum (z.B. zehn Jahre) zur Wahrung der Transparenz und Reproduzier- barkeit von Analysen, sondern für einen unbestimmten Zeitraum (im Prinzip, wie bei den Archiven und Bibliotheken: für immer) für eine wiederkehrende Nutzung vorzuhalten.»28 Dies unter anderem auch, weil geisteswissenschaftliche Forschungsdaten oft eine anhaltende wissenschaftliche Relevanz aufweisen, im Gegensatz zu vielen naturwissenschaftlichen Forschungsdaten. Fachübergreifende Repositorien wie Zenodo können für geisteswissenschaftliche Daten genutzt werden, man sollte sich der Problematik der zeitlich limitierten Aufbewahrung jedoch bewusst sein. Dies muss Forschenden, die sich mit dem Aspekt der LZA (bisher) nicht im Detail befasst haben, deutlich kommuniziert werden, da sonst die Gefahr besteht, dass sie davon ausgehen, dass ihre in Repositorien deponierten Daten für immer betreut werden.
In den nächsten drei Kapiteln werden exemplarisch einige Haupterkenntnisse der Masterarbeit anhand der drei untersuchten Fallbeispiele aufgeführt.
Langzeitarchivierung von Forschungsdaten – Klassische Missverständnisse
Fallbeispiel 1 (FB1) hat zur Zeit des Interviews29 gerade einen Projektantrag beim SNF eingereicht. Das geplante PhD-Projekt einer Einzelperson ist der Dialektfor- schung zuzuordnen. Es sollen Interviews mit einer spezifischen Menschengruppe durchgeführt und Tonaufnahmen festgehalten werden, die anschliessend vergleichend mit bestehenden, früheren Aufnahmen von anderen Forschungsgruppen ausgewertet werden. Im Gespräch wurde deutlich, dass FB1 unter LZA eine Speicherung in Form eines Backups versteht. Mit dem Thema LZA kam FB1 bisher nicht in Berührung und geht davon aus, dass man sich bei Projektabschluss darum kümmern wird. Überhaupt musste sich FB1 mit vielen Aspekten der geplanten Datenerfassung erstmals im Rahmen des auszufüllenden DMP befassen. Nicht nur die Archivierung, auch die Veröf- fentlichung der Daten ist nicht vorgesehen, weil für die Daten aufgrund einer rechtlichen Unsicherheit sowie begrenzten Ressourcen keine Anonymisierung vorgesehen ist. Dies ist bedauerlich, da die zu erhebenden Daten für andere Fragestellungen in der Dialektforschung nachgenutzt werden könnten und auch, weil diese Daten einmalig sein werden. Des Weiteren wird bei FB1 beispielhaft deutlich, wie eng die LZA mit anderen Bereichen wie Anonymisierung und projektspezifischen Voraussetzungen zusammenhängen kann und daher immer unter Beachtung von individuellen Faktoren betrachtet werden muss.
Die Feststellungen zur LZA bei FB1 zeigen klassische Missverständnisse auf, die auch Corrado und Sandy hervorheben: «Digital preservation is not only about ba- ckups and recovery [, …] Digital preservation is not only about access [… and] Digital preservation is not an afterthought.»30 Im deutschen Sprachraum ist der Begriff LZA unter Fachexperten zwar verbreitet, er wird jedoch oft missverstanden. So lehnt Altenhöner den Begriff Langzeitarchivierung ab, da er eine «[…] statische Situation suggeriert.»31 Stattdessen spricht er von digitaler Langzeitverfügbarkeit, um auf eine aktive Tätigkeit hinzuweisen. Töwe bevorzugt den Begriff digitaler Datenerhalt, denn gerade im Kontext der Forschungsdaten und gegenüber in diesem Gebiet erwarteten Kunden aus der Forschung sei der Begriff LZA missverständlich, da damit fälschli-cherweise eine nach Projektabschluss passiv stattfindende Abgabe der Daten zur Archivierung vermittelt werden könnte.32 In vorliegendem Artikel wird jedoch der Begriff LZA verwendet, da er an der UB Bern vertreten und in der deutschsprachigen Literatur weit verbreitet ist. Anstatt den Begriff durch neue Konstruktionen zu ersetzen, wird es als zentral erachtet, auf Bedeutung und Wichtigkeit der digitalen LZA aufmerksam zu machen, mit dem Ziel, sowohl die Daten zu erhalten als auch für deren Benutzbarkeit zu sorgen.
Digitale Edition, NIE-INE und DaSCH
Fallbeispiel 2 (FB2) ist ein umfassendes Editionsprojekt aus dem Fachbereich der Literaturwissenschaften. Parallel und auf Basis derselben Daten entstehen eine mehr als 60-bändige Buchedition und künftig auch eine digitale Edition. Die digitale Edition wird gegenüber der Printedition einen Mehrwert aufweisen, unter anderem weil ziel- gruppenspezifische Ansichten derselben Daten ermöglicht werden sollen. Die Res- sourcenintensivität rechtfertigt sich dadurch, dass die breite Öffentlichkeit Zugang zu den Ergebnissen der editorischen Arbeit des Forschungsprojekts haben wird, das sich mit schweizerischem Kulturerbe befasst. Das an einer dafür eingerichteten For-schungsstelle angesiedelte Projekt steht zur Zeit des Interviews etwa in der Mitte der vorgesehenen 34-jährigen Projektdauer, hat in den letzten Jahren erfolgreich auf eine digitale Arbeitsumgebung gewechselt und konzipiert aktuell die digitale Edition.33
Eine digitale Edition kann als komplexe digitale Ressource bezeichnet werden. Während geisteswissenschaftliche Forschungsdaten «mehrheitlich voneinander unabhängige Einzeldateien sind, verfügen digitale Editionen und Datenbank[en] meist über einen die Summe der Einzeldateien überschreitenden und häufig auch funktio- nellen Mehrwert».34 Häufig liegen zusätzlich zu den Daten auch archivierungswürdige Systeme35 vor. Erhaltenswerte Forschungsergebnisse sind in diesen Fällen dann «mehr als nur Forschungsdaten im engeren Sinne: Auch Präsentationsumgebungen und Applikationen, die Daten interpretieren, Möglichkeiten zur Recherche und Verknüpfung schaffen sowie Services zur Nutzung und Weiterverarbeitung anbieten […]»36 zählen dazu.
Für die in solchen Fällen oft kompliziertere LZA können Datenzentren genutzt werden. Die Arbeitsgruppe Datenzentren der Digital Humanities im deutschsprachigen Raum bezeichnet geisteswissenschaftliche Datenzentren als «lebende Archive».37 Dies, weil sie wie Archive institutionell auf Dauer angelegt sind und auf eine nachhaltige Verfügbarkeit der Inhalte abzielen, jedoch gleichzeitig auch permanenten On-line-Zugang zu einzelnen Objekten und den Betrieb laufender generischer oder projektspezifischer Softwaresysteme gewährleisten, sowie aktives Forschungsdatenmanagement während und nach Projektende von Forschungsprojekten betreiben. Damit wird im Unterschied zu (den meisten) Forschungsdaten-Repositorien mehr als nur Bitstream-Preservation angeboten, da die Daten hier langfristig gepflegt werden.
FB2 ist genau ein solcher Fall, in dem nicht nur die Daten erhaltenswert sind, sondern auch das System. Weil sich die technische Beratung nicht unbedingt inner- halb des gewohnten Netzwerks eines Geisteswissenschaftlers finden lässt, hat FB2 schon früh nach Unterstützung gesucht. Da sich diese zu Projektbeginn in der Schweiz nicht finden liess, holte sich FB2 Beratung bei mehreren Kompetenzzentren in Deutschland. Mittlerweile steht fest, dass künftig mit dem Projekt Nationale Infra- struktur für Editionen (NIE-INE) in der Schweiz zusammengearbeitet werden soll.
Bei NIE-INE wird eine Arbeitsoberfläche mit modularen Funktionen spezifisch für digitale Editionen erschaffen. 38 Zentrale Ziele von NIE-INE sind die langfristige Sicherung, Verfügbarkeit und Publikation der digitalen Forschungsergeb- nisse sowie deren zugrunde liegenden Forschungsdaten. Dazu wird die Infrastruktur vom Data and Service Center for the Humanities (DaSCH)39genutzt. Zu den primären Zielen von NIE-INE gehören auch die Beratung und Betreuung der Editionsprojekte sowie allgemeine Services, beispielsweise für technische Anpassungen. Koordiniert wird das Projekt vom an der Universität Basel angesiedelten Forum für Edition und Erschliessung (FEE).40 NIE-INE ist zurzeit (Stand 2018) noch in der Projektphase.
Das DaSCH ist seit 2017 ein dauerhaftes Unternehmen der Schweizerischen Akademie der Geistes- und Sozialwissenschaften und damit ein nationales Datenzent- rum.41 Es gewährleistet unter anderem die langfristige Sicherung und (Nach-)Nutz- barkeit von qualitativen geisteswissenschaftlichen Forschungsdaten. Dies beinhaltet auch das Hosting von für die Geisteswissenschaften relevanten Daten.42
Technisch besteht das DaSCH aus einer offenen, modularen, erweiterbaren und flexiblen Plattform, die auf industriellen Standards wie Resource Description Framework basiert, worauf die Daten gespeichert und verwaltet werden. Diese Platt- form wird ergänzt durch eine generische, virtuelle Forschungsumgebung, in der die Daten bearbeitet werden können; auf Wunsch können auch projektspezifische Zugänge eingerichtet werden.43
Für die LZA von komplexen Ressourcen, die nicht nur aus Daten, sondern auch aus Systemen bestehen und auf die eine Zugriffsmöglichkeit bestehen soll, wird vom DaSCH ein Keep-Alive-Archiving-Ansatz in Kombination mit einer Archivierung nach dem OAIS-Referenzmodell verfolgt.44 Mithilfe von Zeitstempeln können auch Projekte unterstützt werden, die inhaltlich noch verändert werden, denn so bleiben sie zitierfähig.45 Sobald sich die Technologie weiterentwickelt, wird das ganze System migriert.
Das DaSCH ist speziell, aber nicht ausschliesslich für komplexe Daten geeig- net. Grundsätzlich können hier alle geisteswissenschaftlichen Daten sowohl aus neu startenden als auch bereits laufenden oder abgeschlossenen Projekten betreut werden. Wobei angefügt werden muss, dass bei bereits laufenden oder abgeschlossenen Projekten allenfalls ein relativ grosser Aufwand entstehen kann, falls das Datenmodell oder die Datenstruktur angepasst werden müssen.
Relationale Datenbank aus fortlaufendem Projekt
Fallbeispiel 3 (FB3) bearbeitet seit 17 Jahren eine umfassende Datenbank mit Einträ- gen zu einer wissenschaftlich relevanten Gruppe von Personen. Die Personen werden aufgrund von Universitätsmatrikellisten erfasst und bei der weiteren Bearbeitung mit Information zu Herkunft, verwandtschaftlichen Bindungen, Lebensweg, beruflichen Stationen, verfassten Werken und Weiterem angereichert. Ein Webzugriff ermöglicht unter anderem die dynamische Erzeugung von Visualisierungen der täglich aktualisierten Daten. Für dieses Projekt aus dem Fachbereich Geschichte ist vorerst kein Abschluss geplant, die bestehenden Daten werden weiter angereichert.46
FB3 spielt schon seit einigen Jahren mit dem Gedanken, seine Daten bei einer auf Dauer ausgelegten Institution wie einer Bibliothek unterzubringen. Es wurden unterschiedliche Überlegungen zum Thema LZA gemacht, mit dem Fazit, dass die Datenbank idealerweise am laufenden Betrieb zu halten ist. Dazu sind FB3 jedoch keine passenden Angebote bekannt. Eine Schwierigkeit ist, dass ähnlich wie bei FB2 kom- plexere Daten vorliegen, wobei zusätzlich zu den Daten auch ein System vorhanden ist, welches ebenso langzeitarchiviert werden muss.
Speziell für die Archivierung von relationalen Datenbanken wurde vom Schweizerischen Bundesarchiv SIARD (Software independent archiving of relational databases)47 entwickelt. Aber SIARD deckt nicht alle Bedürfnisse von FB3 ab. Eine Problematik stellt Folgendes dar: Um die Daten anzusehen oder zu nutzen, muss das ganze Datenset aus dem Archiv geholt und mit SIARD-Suite in ein funktionierendes Datenbankmanagementsystem überführt werden – es ist nicht möglich, bloss einen kurzen Blick auf einen einzelnen Datensatz zu werfen.48 So eignet sich SIARD wirklich nur für abgeschlossene Datenbanken, die quasi eingefroren werden können. Das macht nur dann Sinn, wenn sie nicht mehr verändert werden und auf die Daten nicht mehr regelmässig zugegriffen werden soll. Das ist bei FB3 jedoch nicht der Fall. Trotzdem wird gewünscht, das langjährige, ressourcenintensive Projekt bald absi- chern zu können, wenn auch nur ein gewisser Stand der Daten. Zudem werden die Darstellungsmöglichkeiten der Daten über den Webzugriff als zentrales Element von FB3 betrachtet, damit die Datenbank als Forschungsinstrument genutzt werden kann. Dies soll auch künftig möglich sein.
Wie von FB3 selbst gesagt, wäre es die beste Möglichkeit, die Datenbank und den Webzugriff am laufenden Betrieb zu halten. Dazu könnte das DaSCH in Betracht gezogen werden. Denn es ist, wie im vorangehenden Kapitel ausgeführt, spezialisiert auf komplexere geisteswissenschaftliche Daten, auf die auch nach einer Abgabe ans DaSCH regelmässig zugegriffen werden kann und bietet zudem Lösungen an, wenn FB3 hat bisher keinen Kontakt zum DaSCH aufgenommen, da eine Problematik darin besteht, dass die vorhandene relationale Da- tenbank durch ihr historisches Wachstum in Datenstruktur und Datenmodell sehr komplex geworden ist und stark verändert werden müsste, um mit der Infrastruktur des DaSCH archiviert werden zu können. Dieser Aufwand wird als zu hoch eingeschätzt.
Weil die Forschungsergebnisse von FB3 jedoch einen hohen wissenschaftlichen Wert mit sich bringen, indem die Datenbank als Forschungsinstrument funktioniert, somit als Grundlage für weitere Forschung dient und zudem einzigartige Daten nutzbar machen kann, rechtfertigt sich die Ressourcenintensivität des Forschungsprojekts. Diese Punkte befürworten eine LZA, weshalb FB3 weiter nach einer zufrieden- stellenden Lösung sucht.
Langzeitarchivierung an der UB Bern bisher
Anhand der drei untersuchten Fallbeispiele wurden klassische Missverständnisse bei der LZA von geisteswissenschaftlichen Forschungsdaten vorgeführt, Schwierigkeiten und Lösungsansätze bei der LZA von komplexen digitalen Ressourcen (digitale Edi- tion sowie relationale Datenbank) aufgezeigt und die grundsätzliche Frage der Lang- zeitarchivierung bei fortlaufenden Forschungsprojekten (am Leben halten oder «Ein- frieren») besprochen.
Ein Teil der Strategie49 für die LZA an der UB Bern sieht für 2017-2020 vor, dass eine digitale Langzeitarchivierungsstrategie implementiert und ein Langzeitar- chiv eingerichtet wird. Einiges ist bereits erreicht: Die Abteilung LZA kümmert sich um die LZA ihrer E-Books und E-Journals, indem sie sich an kooperativen Projekten beteiligt. Zudem wurde mit Bern Digital Archive (BerDA) eine Infrastruktur für die LZA der UB Bern aufgebaut. Sie ist auf die LZA der auf e-rara.ch verfügbaren Digi- talisaten der UB Bern ausgerichtet und ist daher vorerst ohne externe Zugriffsmög- lichkeit in Betrieb genommen worden.
Die Abteilung LZA ist aktuell noch nicht auf Unterstützung für Forschende ausgerichtet, da bisher unklar war, welche Bedürfnisse vorhanden sind. Weil die Strategie der UB Bern einen von fünf Schwerpunkten auf die Unterstützung von Bildung, Forschung und Lehre setzt, werden nun bestehende Angebote ausgebaut. Dies betrifft unter anderem die Bereiche elektronisches Publizieren und Forschungsdatenmanage-ment, aber auch die LZA.50
Mögliche Weiterentwicklung der Langzeitarchivierung an der UB Bern
Auf Grundlage der durch Interviews mit unterschiedlichen Fallbeispielen erhobenen Ergebnisse können für die mögliche Weiterentwicklung der LZA an der UB Bern folgende Punkte festgestellt werden:
Der Informationsbedarf der betrachteten Fallbeispiele ist sehr unterschiedlich.
Dies, weil die Projekte sowohl in Bezug auf den Projektstand als auch in Bezug auf die Überlegungen zur LZA der Daten unterschiedlich fortgeschritten sind.
FB2 suchte sich seine Informationen im Ausland zusammen, da zu Projektbeginn vor Ort kein Angebot bekannt war – das kann auch bei anderen, ähnlichen Projekten der Fall sein. Die UB Bern als Ansprechpartner im Bereich LZA in Betracht zu ziehen, ist (noch) nicht verbreitet. Sie muss sich bei einem Ausbau der Angebote in dieser Rolle von Anfang an bekannt machen.
Auch die inhaltliche Breite und Tiefe der festgestellten Informationsbedürfnisse ist sehr unterschiedlich. Bei FB1 war LZA noch gar nicht bekannt, Bei FB2 und FB3 war das Thema zwar mittlerweile bekannt, es wurde nun aber eher ein Überblick zu bestehenden Angeboten von unterschiedlichen Anbietern und zu komplexeren Lösungen gewünscht.
Alle drei Fallbeispiele äusserten den Wunsch nach einer ersten Anlaufstelle, die nicht nur bei Fragen der LZA, sondern auch bei Themen wie Digitalisie- rung, Dateibenennung, Anonymisierung, Datenmanagement usw. weiterhelfen oder an Experten verweisen kann. Dieses Bedürfnis deckt sich mit Ergebnissen aus Interviews, durchgeführt von einer internen Arbeitsgruppe, die sich mit dem Ausbau des digitalen Dienstleistungsangebots der UB Bern befasst. Mitt- lerweile wird bei einer weiteren Arbeitsgruppe an einem übersichtlichen Angebot und der Vermittlung von forschungsunterstützenden Dienstleistungen im Bereich der Geisteswissenschaften gearbeitet, wobei ebenfalls die Umsetzung eines Angebots, das einer ersten Anlaufstelle entspricht, verfolgt wird.
Auf Grundlage der erhobenen Bedürfnisse könnte das Angebot in Bezug auf Infrastruktur für die LZA für Forschende folgendermassen ausgerichtet werden: BerDA kann ohne Oberflächensystem für Forschungsprojekte genutzt werden, die wie FB3 einen eigenen Webzugang betreuen und parallel dazu ihre Daten langzeitarchivieren möchten. In diesem Sinne wird FB3 zurzeit als mögliches Pilotprojekt in Betracht gezogen. Auch ein Ausbau von BerDA, der einen externen Zugriff auf die Daten ermöglicht, könnte in Betracht gezogen werden. Zudem kann auf externe Angebote wie das DaSCH verwiesen werden.
An der UB Bern befindet sich bei der Abteilung Forschungsdatenmanagement ein institutionelles Repositorium für Forschungsdaten im Aufbau. Dieses soll den Forschenden ermöglichen, die Forderungen des SNF umzusetzen, sofern für ihre Daten keine fachspezifischen Repositorien zur Verfügung stehen.
Komplexe Daten wie Datenbanken und digitale Editionen werden darauf je- doch nicht abgelegt werden können. Da ein generisches Repositorium für die ganze Universität vorgesehen ist, welches somit nicht spezifisch auf geistes- wissenschaftlichen Daten ausgerichtet sein wird, wird es sich an einem kurz- bis mittelfristigen Zeithorizont von 10 Jahren als Minimum für die garantierte Aufbewahrung orientieren, ähnlich wie Zenodo. BerDA ist zwar langfristiger ausgelegt, bietet jedoch bisher keine externe Zugriffsmöglichkeit, was den For- derungen der forschungsfördernden Institutionen nicht gerecht wird. Hier könnte in Betracht gezogen werden, eine Schnittstelle zwischen dem künftigen institutionellen Repositorium für Forschungsdaten und BerDA einzurichten, damit sich die Angebote noch einfacher ergänzen könnten.
Auch die Beratung würde idealerweise Themen des Forschungsdatenmanagements und der LZA kombinieren. Einerseits, weil Forschende aktuell vor allem durch den Druck, den forschungsfördernde Institutionen wie der SNF mit den auszufüllenden DMP’s ausüben, Unterstützung im Forschungsdatenmanagement suchen. Andererseits auch, weil die LZA in den gesamten Lebenszyklus51 von Forschungsdaten eingebunden ist und nicht separat betrachtet werden sollte. Da die Abteilung LZA sich bisher mit den eigenen Digitalisaten der UB Bern befasst hat, war kein Austausch mit der Abteilung Forschungsdatenmanagement notwendig. Dies ändert sich jedoch, sobald es um die LZA von Forschungsdaten geht, weil diese nicht losgelöst von ihrem Lebenszyklus betrachtet werden können. So ist es unabdingbar, dass die beiden Abteilungen enger zusammenarbeiten.
Vorliegender Artikel hat unterschiedliche Bedürfnisse wie auch erste Schritte zur Weiterentwicklung skizziert, um das bestehende Angebot zur LZA der UB Bern auf Forschungsdaten auszurichten. Welche von diesen Vorschlägen künftig umgesetzt und welche weiteren Entwicklungen vorgenommen werden (können), wird erst die Zukunft zeigen. Es ist jedoch unabdingbar für die UB Bern, das Bewusstsein der Not- wendigkeit der LZA von Forschungsdaten zu fördern sowie entsprechende Dienstleis- tungen anzubieten. Denn die rasanten technologischen (Weiter-)Entwicklungen, die im Rahmen der Digitalisierung fortschreiten, verursachen ein Kaleidoskop an kaum greifbaren, sich ständig verändernden Möglichkeiten – auch für die technologische Umsetzung von Forschungsprojekten. So unternimmt die UB Bern einen notwendigen ersten Schritt, um dem Risiko des Verlusts der Benutzung oder sogar der Daten an sich entgegenzuwirken.
Bibliografie
Altenhöner, Reinhard/Schrimpf, Sabine (2015): Bestandserhaltung und Lang- zeitverfügbarkeit digitaler Ressourcen. Strategie, Organisation und Techniken, in: Rolf Griebel et. al. (Hg.): Praxishandbuch Bibliotheksmanagement (Bd. 2), Berlin, S. 850–872.
Andorfer, Peter (2015): Forschungsdaten in den (digitalen) Geisteswissen- schaften. Versuch einer Konkretisierung, Göttingen, http://webdoc.sub.gwdg.de/pub/mon/dariah-de/dwp-2015-14.pdf, Zugriff: 13.07.2018.
Bauer, Bruno et. al. (2015): Forschende und ihre Daten. Ergebnisse einer ös- terreichweiten Befragung – Report 2015. Version 1.1, https://zenodo.org/record/32037#.WoyMLOciE2w , Zugriff: 15.07.2019.
Bogner, Alexander et. al. (2014): Interviews mit Experten. Eine praxisorientierte Einführung, Wiesbaden.
Brown, Adrian (2013): Practical digital preservation. A how-to guide for organizations of any size, London.
Brübach, Nils (2010): Das Referenzmodell OAIS, in: Heike Neuroth et. al. (Hg.): Nestor-Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, Boizenburg, Version 2.3, S. 4:3-4:14.
Corrado, Edward M./Sandy, Heather M. (2017): Digital preservation for libraries, archives, and museums (2. Aufl.), Lanham.
Cremer, Fabian et. al. (2018): Der Chimäre auf der Spur. Forschungsdaten in den Geisteswissenschaften, in: O-bib. Das offene Bibliotheksjournal 5 (.), S. 142– 162.
DaSCH (o. J.): DaSCH. Services, http://dasch.swiss/services/, Zugriff: 22.07.2018.
Deutsche Forschungsgemeinschaft (2015): Leitlinien zum Umgang mit For- schungsdaten, http://www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/richtlinien_forschungsdaten.pdf, Zugriff: 14.07.2018.
DHd AG Datenzentren (2017): Geisteswissenschaftliche Datenzentren im deutschsprachigen Raum. Grundsatzpapier zur Sicherung der langfristigen Verfüg- barkeit von Forschungsdaten, https://doi.org/10.5281/zenodo.1134760, Zugriff: 13.07.2018.
FEE (o. J.): Nationale Infrastruktur für Editionen. Infrastructure nationale pour les éditions (NIE-INE), http://www.fee.unibas.ch/nie_ine.html, Zugriff: 14.07.2018.
Forschungsdaten.info (o. J. a): Glossar. Repositorium, https://www.forschungsdaten.info/support/glossar/#c269860, ugriff: 14.07.2018.
Forschungsdaten.info (o. J. b): Glossar. Forschungsdatenmanagement, https://www.forschungsdaten.info/support/glossar/#c269836, Zugriff: 17.07.2019.
Funk, Stefan E. (2010): Migration, in: Heike Neuroth et. al. (Hg.): Nestor- Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, Boizenburg, Version 2.3, S. 8:10-8:15.
Liegmann, Hans/Neuroth, Heike (2010): Einführung, in: Heike Neuroth et. al. (Hg.): Nestor-Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchivie- rung, Boizenburg, Version 2.3, S. 1:1-1:10.
Mertes, Nathalie (2013): Fallstudien, in: Konrad Umlauf et. al. (Hg.): Hand- buch Methoden der Bibliotheks- und Informationswissenschaft, Berlin, S. 152–167.
Minn, Gisela/Lemaire, Marina (2017): Forschungsdatenmanagement in den Geisteswissenschaften. Eine Planungshilfe für die Erarbeitung eines digitalen For- schungskonzepts und die Erstellung eines Datenmanagementplans, Trier, http://ubt.opus.hbz-nrw.de/volltexte/2017/1071/, Zugriff: 14.07.2018.
NIE-INE, Nationale Infrastruktur für Editionen (o. J.): Über NIE-INE, https://www.nieine.ch/steckbrief-de, Zugriff: 15.07.2019.
Osswald, Achim et. al. (2012): Langzeitarchivierung von Forschungsdaten. Einführende Überlegungen, in: Heike Neuroth et. al. (Hg.): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme, Boizenburg, S. 13–21.
Puhl, Johanna et. al. (2015): Diskussion und Definition eines Research Data LifeCycle für die digitalen Geisteswissenschaften, Göttingen, http://webdoc.sub.gwdg.de/pub/mon/dariah-de/dwp-2015-11.pdf, Zugriff: 14.07.2018.
RatSWD (Hg.) (2016): Forschungsdatenmanagement in den Sozial-, Verhal- tens- und Wirtschaftswissenschaften. Orientierungshilfen für die Beantragung und Begutachtung datengenerierender und datennutzender Forschungsprojekte (2. Aufl.), Berlin, https://doi.org/10.17620/02671.7, Zugriff: 14.07.2018.
Rosenthaler, Lukas et. al. (2015): Final report for the pilot project „Data and Service Center for the Humanities“ (Dasch), https://doi.org/10.5281/zenodo.822918, Zugriff: 14.07.2018.
SAGW (o. J. a): Glossar „Open Access“, https://sagw.ch/fileadmin/user_ upload/Glossar_Open_Access.pdf, Zugriff: 15.07.2019.
SAGW (o. J. b): Data and Service Center for the Humanities (DaSCH), https://sagw.ch/dasch/, Zugriff: 15.07.2019.
Sahle, Patrick/Kronenwett, Simone (2013): Jenseits der Daten. Überlegungen zu Datenzentren für die Geisteswissenschaften am Beispiel des Kölner „Data Center for the Humanities“, in: LIBREAS. Library Ideas 23, S. 76–96.
Schweizerisches Bundesarchiv (2018): SIARD Suite, https://www.bar.admin.ch/bar/de/home/archivierung/tools---hilfsmittel/siard-suite.html, Zugriff: 22.07.2018.
SNF (o. J. a): Open Research Data, http://www.snf.ch/de/derSnf/forschungspolitische_positionen/open_research_data/Seiten/default.aspx, Zugriff: 15.07.2019.
SNF (o. J. b): Data Management Plan (DMP). Leitlinien für Forschende, http://www.snf.ch/de/derSnf/forschungspolitische_positionen/open_research_data/Seiten/datamanagement-plan-dmp-leitlinien-fuer-forschende.aspx, Zugriff: 14.07.2018.
SNF (2017): Data management plan - mySNF Formular, http://www.snf.ch/SiteCollectionDocuments/DMP_content_mySNF-form_de.pdf, Zugriff: 15.07.2019.
Töwe, Matthias (2015): Von Forschungsdaten zu e-journals und zurück. Der Weg zum digitalen Datenerhalt an der ETH-Bibliothek, in: Rafael Ball/Stefan Wiederkehr (Hg.): Vernetztes Wissen. Online. Die Bibliothek als Managementaufgabe, Berlin, S. 159–171.
Ullrich, Datmar (2010): Bitstream Preservation, in: Heike Neuroth et. al. (Hg.): Nestor-Handbuch. Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, Boi- zenburg, Version 2.3, S. 8:3-8:9.
Univation. Institut für Evaluation (2015): Informiertes Einverständnis. EvalWiki: Glossar der Evaluation., https://eval-wiki.org/w_glossar/index.php?title=Informiertes_Einverst%C3%A4ndnis&oldid=1080, Zugriff: 14.07.2018.
Universität Bern (o. J.): Universität Bern. Website, http://www.unibe.ch, Zugriff: 17.07.2019.
Universitätsbibliothek Bern (o. J. a): Universitätsbibliothek Bern. Website, http://www.ub.unibe.ch, Zugriff: 17.07.2019.
Universitätsbibliothek Bern (o. J. b): Open Science, http://www.unibe.ch/universi-taet/dienstleistungen/universitaetsbibliothek/service/open_science/index_ger.html, Zugriff: 22.07.2018.
Universitätsbibliothek Bern (2017): Strategie 2017-2020, http://www.unibe.ch/unibe/portal/content/e809/e962/e963/e6382/e6386/e552940/Strategie_A5_Web_ger.pdf, Zugriff: 14.07.2018.
Werner, Petra (2013): Qualitative Befragungen, in: Konrad Umlauf et. al. (Hg.): Handbuch Methoden der Bibliotheks- und Informationswissenschaft, Berlin, S. 128–151.
Zenodo (o. J. a): Zenodo about. Infrastructure, http://about.zenodo.org/infrastructure/, Zugriff: 22.07.2018.
Zenodo (o. J. b): General policies, http://about.zenodo.org/policies/, Zugriff: 15.07.2019.
Abkürzungen
BerDA: Bern Digital Archive
DARIAH-DE: Digital Research Infrastructure for the Arts and Humanities Deutsch- land
DaSCH: Data and Service Center for the Humanities
DMP: Data Management Plan
FB1, FB2, FB3: Fallbeispiel 1, Fallbeispiel 2, Fallbeispiel 3
LZA: Langzeitarchivierung, synonym zu digitale Langzeitarchivierung
NIE-INE: Nationale Infrastruktur für Editionen
SIARD: Software independent archiving of relational databases
UB Bern: Universitätsbibliothek Bern
Fußnote