01/2023
1 Digitale Langzeitarchivierung
Die Aufgabe der digitalen Langzeitarchivierung (dLZA) ist die Bewahrung der Integrität, Authentizität und Interpretierbarkeit digitaler Objekte über lange Zeiträume hinweg. Sie umfasst technische, organisatorische, rechtliche, ethische, psychologische und gesellschaftliche Aspekte und bewegt sich im Spannungsfeld zwischen der Verantwortung für den Inhalt digitaler Objekte und deren Erhaltung und der Verantwortung gegenüber ihren heutigen und zukünftigen Nutzer*innen. Die dLZA liegt als Prozess sich wiederholender Maßnahmen über dem gesamten Lebenszyklus eines digitalen Objekts und beginnt (idealerweise) bereits während seiner Entstehung.
2 (Retro-)Digitalisierung
Um die Entstehungsbedingungen des Digitalisats auch später noch nachvollziehen und ggf. bei Migrationsprozessen berücksichtigen zu können, sollten Angaben über die eingesetzte Hard- und Software sowie andere Digitalisierungskriterien als verknüpfte Metadaten (bspw. TIFF-Tags) abgelegt werden. Ebenso wichtig ist es, Angaben über den Erhaltungszustand und zu den Hintergründen der Entstehungsgeschichte der analogen Primärform in die Überlieferungshistorie des Digitalisats einzubeziehen.
3 Modelle und Standards
3.1 OAIS
Die 1995 begonnene Entwicklung des Open Archival Information System (OAIS) durch das Consultative Committee for Space Data Systems (CCSDS) der NASA und die daraus entstandene ISO-Norm 14721:2012 waren wesentliche Schritte bei der Entwicklung von Standards in der dLZA. Der Erfolg von OAIS liegt u. a. darin begründet, dass es weder ein Anwendungsgebiet noch die Implementierung technischer Systeme vorgibt. Es dient vielmehr modellhaft als Grundlage für die Definition spezifischer Anforderungen an das eigene Archivierungssystem. Neben den Beziehungen zwischen den Datenproduzenten, dem Archiv und den Datennutzer*innen beschreibt OAIS die Rollen und Verantwortlichkeiten der einzelnen Prozessbeteiligten (Menschen und Systeme). Es formuliert Paketstrukturen für die Aufnahme (SIP), Archivierung (AIP) und Ausgabe (DIP) von Objekten, deren Verständnis dabei hilft, Langzeitarchivierungssysteme von IT-Speichersystemen zu unterscheiden. OAIS definiert konzeptionell die notwendigen Organisationsstrukturen mit ihren Zielen, Verantwortlichkeiten und Prozessen wie auch eine funktionale Ebene mit ihrem Vokabular, Funktionsbereichen und Schnittstellen. Die Informationsebene – Informations- und Metadatentypen, Informationsflüsse und -abhängigkeiten – beschreibt die dauerhafte Interpretierbarkeit eines Objekts; zugrundeliegender Datenstrom und Repräsentationsbeschreibungen bilden ein Informationsobjekt. Zudem werden sog. Preservation Description Informations empfohlen, die Angaben zu Referenzen, Kontext, Provenienz und Persistenz, Zugriffsrechten sowie zusätzliche deskriptive Beschreibungen der Objekte umfasst. Im Funktionsmodell wird die Datenprozessierung mittels Ingest, Archival Storage, Datenmanagement, Administration und Access beschrieben, die Planung von Erhaltungsmaßnahmen im Preservation Planning.
3.2 DCC Curation Lifecycle Model
Das im Jahre 2008 eingeführte DCC – Curation Lifecycle Model lehnt sich eng an das OAIS-Referenzmodell an und beschreibt sequentielle Aktivitäten zur Erhaltung digitaler Objekte. Seine Gestaltung ermöglicht einen niedrigschwelligen Zugang zu den Maßnahmen der Datenkuratierung und -archivierung und lässt sich auf unterschiedlichen Granularitätsebenen einsetzen. Anwender*innen können je nach Bedarf an für sie passenden Stellen in das Modell einsteigen. Während im OAIS-Modell lineare Prozesse beschrieben werden, wird im Curation Lifecycle-Modell die zyklische Abfolge von Handlungen dargestellt, was dem grundsätzlichen Ansatz der dLZA als eine sich wiederholende Abfolge von Prozessschritten entspricht. Außerdem werden hier auch Aktivitäten beschrieben, die außerhalb der eigentlichen Archivierungsprozesse stattfinden (bspw. Pre-Ingest). Über die Verbindung der Aufgabenbereiche Curation und Preservation verdeutlicht das Modell die gleichzeitige Verantwortung für beide Bereiche.
3.3 Three-legged stool model
Das Three-legged stool model wurde von Kenney & McGovern (2003) für die Digital Preservation Management Workshops in den Jahren 2003–2006 entwickelt. Mit den drei Teilen Technologie, Organisation und Ressourcen beschreibt es die Voraussetzungen für den erfolgreichen und nachhaltigen Betrieb eines dLZA-Systems. Das Modell hilft bei der Bewertung der Entwicklung einer Organisation im Rahmen eines Reifegradmodells. Es besteht aus fünf aufeinanderfolgenden Stufen: Anerkennen, Handeln, Konsolidieren, Institutionalisieren und Externalisieren. Der Teil Organisation fragt nach den Anforderungen und Parametern der Organisation in Bezug auf die dLZA. Er dient als Basis für eine Bestandsaufnahme oder einen Anforderungskatalog und beschreibt die kontinuierliche Weiterentwicklung und strategische Ausrichtung der Organisation, etwa auf den Ebenen Politik und Strategie, Verfahren und Arbeitsabläufe, Dokumentation sowie Bewertung von Risiko und Nutzen. Wie die Organisation definierte Anforderungen erfüllen kann, beleuchtet der Technologie-Teil. Es geht um einzusetzende Hard- und Software, die Systemumgebung und technische Infrastruktur sowie um Komponenten der IT-Sicherheit. Dazu gehören Updates, Wartungsarbeiten und die Fähigkeit zur Skalierung und Anpassung an den technologischen Wandel. Der Teil Ressourcen betrachtet für die Entwicklung und Aufrechterhaltung der dLZA momentan und dauerhaft notwendige Mittel, das sind Geschäftsmodelle, Budgetierung sowie eine nachhaltige Personalplanung und -entwicklung.
3.4 PREMIS
Preservation Metadata Implementation Strategies (PREMIS) ist der Name einer internationalen Arbeitsgruppe, die ein Data Dictionary und Informationen zu Langzeitarchivierungsmetadaten entwickelt hat. Das PREMIS Data Dictionary und die dazugehörige Dokumentation sind eine umfassende, praxisbezogene Ressource für die Implementierung von Metadaten in digitale Langzeitarchivierungssysteme. Das Data Dictionary basiert auf einem Datenmodell, das fünf Entitäten definiert: Umgebung, Objekte, Ereignisse, Rechte und Akteure. Die Library of Congress hat eine Reihe von PREMIS XML-Schemata zur Darstellung von Metadatenelementen im Data Dictionary veröffentlicht, mit Version 3.0 wurde eine umfassende Überarbeitung vorgelegt.
3.5 METS
Das METS-Schema ist ein XML-basierter Standard für die Kodierung von beschreibenden, administrativen und strukturellen Objekt-Metadaten. Er geht auf eine Initiative der Digital Library Federation zurück und wird vom METS Board in Zusammenarbeit mit dem Network Development and MARC Standards Office der Library of Congress gepflegt. METS wurde mit Bezug auf das Informationspaketkonzept des OAIS-Modells entwickelt und bietet die Möglichkeit, alle Objekt-Metadaten innerhalb eines Containers mit dem Objekt zu verknüpfen. Standardisierte Metadatenschemata erleichtern Austauschprozesse zwischen Repositorien erheblich. METS wurde entwickelt, um diese Interoperabilität zu gewährleisten und steigert die Effektivität beim Austausch digitaler Objekte deutlich.
4 Organisationsformen der dLZA
4.1 Ebenen
Jedes digitale Objekt besteht aus einem physischen, einem logischen und einem semantischen Objekt mit den dazugehörigen Eigenschaften. Für eine dauerhafte Bewahrung digitaler Objekte sind Erhaltungsmaßnahmen auf allen drei Ebenen notwendig. Auf der physischen Ebene geht es um Datenströme (Bitstream), die von einem Speichersystem identifiziert und verwaltet werden. Die Bits sind auf dieser Ebene im Sinne einer inhaltlichen Interpretation nicht definiert. Ein logisches Objekt kann von einer Anwendungssoftware identifiziert und interpretiert werden. Dieses Erkennen erfolgt im Allgemeinen auf der Grundlage des Dateiformats, dessen Struktur und Regeln die digitale Repräsentation von Inhalten ermöglicht. Die Grundsätze, die das logische Objekt steuern, sind unabhängig davon, wie und auf welchem physischen Medium die Daten gespeichert sind. Semantische Objekte können von einer Person als sinnvolle Einheit erkannt und verstanden, teilweise von einer Computeranwendung erkannt und verarbeitet werden. Inhalt und Struktur eines semantischen Objekts müssen in irgendeiner Weise in einem (oder mehreren) logischen Objekt enthalten sein: Nur bei genügend deskriptiven Metadaten ist der ursprüngliche Kontext verstehbar. Derselbe semantische Inhalt kann in sehr unterschiedlichen digitalen Kodierungen dargestellt werden, die semantische Struktur sich erheblich von der Struktur des logischen Objekts unterscheiden.
4.2 Erhaltungsprozesse
Bitstream Preservation beinhaltet die redundante Speicherung des Datenstroms in drei physisch voneinander unabhängigen Kopien an zwei geographisch getrennten Speicherorten. Die Speichertechnik sollte divers und die Speichermedien so gewählt sein, dass die erste Kopie einen schnellen Zugriff, die zweite und dritte Kopie einen mittleren bis langsamen Zugriff ermöglichen. Die Erhaltungsmaßnahmen umfassen die Trennung von Datenträger und digitalem Objekt (bspw. durch USB- oder CD-Imaging), die Überwachung der Datenintegrität mittels Hashwerten (CRC, MD5, SHA-256) und stellen sicher, dass die Speichermedien regelmäßig migriert werden. Zu den Medienmigrationsprozessen zählen das Refreshing, die Replikation, das Repacking und die Transformation. Da Repacking (bspw. Änderung des Packformats von ZIP zu TAR) und Transformation (Formatmigration) den Datenstrom verändern, sind sie kein reiner Medienmigrationsprozess, sondern haben ihn zur Folge.
Logical Preservation stellt sicher, dass die Objekte unabhängig von technologischen Veränderungen auf der Dateiformatebene in einer technisch verarbeitbaren (Ausführbarkeit) und lesbaren Form erhalten bleiben. Zu den Maßnahmen zählen
- die Dateiformatidentifizierung mit der Bestimmung des genauen Dateiformats (versionsgenau) und der Zuordnung eines eindeutigen Identifikators z. B. PUID. (Tools: DROID, Siegfried, FIDO, File Format Registry PRONOM),
- die Dateiformatvalidierung, bei der gegen einen Dateiformatstandard in Form einer Spezifikation und/oder ein durch die Institution definiertes Profil validiert wird (Tools: JHOVE, veraPDF, MediaConch, EpubCheck u. a.) und
- die Extrahierung und Speicherung technischer Metadaten durch die Erfassung technischer Informationen, wie z. B. Erstellungshard und -software, das genutzte Komprimierungsverfahren, Auflösung, Videocodec in AV Container (Tools: JHOVE, veraPDF, MediaInfo, NLNZ Metadata Extraction Tool, exiftool u. a.).
Semantic Preservation stellt die langfristige Verständlichkeit von Objekten und deren Interpretierbarkeit auf inhaltlicher Ebene sicher. Der Objekt-Kontext wird in begleitenden Metadaten (Representation Information) erfasst und regelmäßig auf Aktualität überprüft. Analog zur Migration auf der logischen Ebene können Metadaten auf der semantischen Ebene migriert und versioniert werden. Als Erhaltungsmaßnahme dient die Definition und Erfassung von deskriptiven Angaben (bspw. der Katalogeintrag), von rechtlichen Beschreibungen (bspw. Nutzungsrechte und Archivrechte) und von sog. Business-Rules (bspw. Zugriff, Sammlungszugehörigkeit). Die Erfassung der Metadaten und deren Ablage im Archiv erfolgt in standardisierten, homogenen Schemata (Dublin Core, METS und PREMIS). Diese Metadaten können durch sog. Source Metadata beliebig ergänzt werden. Das so entstandene Paket ist selbstbeschreibend und ermöglicht eine Validierung gegen definierte Policies im System. Im Rahmen des Technology Watch werden die eingesetzten Metadatenstandards auf Veränderungen geprüft und bei Bedarf migriert oder angepasst (z. B. Änderungen der PREMIS Version). Über eine Erfassung der Metadaten in der Datenbank des Archivierungssystems lassen sich diese Prozesse größtenteils automatisieren.
4.3 Betriebsmodelle
Langzeitarchivierungssysteme sind Content-Management-Systeme mit spezifischen LZA-Funktionalitäten. Ihre Architektur dient als Framework, in das sich verschiedene LZA-spezifische Tools einbinden lassen (bspw. zur Identifizierung, Validierung, Extrahierung). Auf der Definitionsgrundlage von technischen und organisatorischen Anforderungen entscheidet sich, ob ein System oder ein Service zum Einsatz kommt bzw. ob die Lösung selbst entwickelt oder fertig eingekauft werden soll.
Selbstentwickelte Lösungen können gezielt auf die Bedürfnisse der Archivierung zugeschnitten werden, sind modular und transparent aufgebaut und lizenzkostenarm. Ihr Nachteil besteht in den Kosten für die Entwicklung und Implementierung, auch langfristig muss Personal für Entwicklung, Support und Weiterentwicklung des Systems sichergestellt sein. Bei fertigen (meist kommerziellen) Lösungen liegen die meisten dieser Kosten und Aufgaben beim Dienstleister. Der Einsatz einer End-to-End-Lösung von Beginn an ist ein weiterer Vorteil. Nachteilig sind dagegen die hohen Lizenzkosten, die Abhängigkeit von einem Anbieter mit mehr oder weniger gutem Support und möglichen Einschränkungen beim Einbau von Drittsystemen und der Umsetzung spezieller Anforderungen.
Die Auswahl eines geeigneten Betriebsmodells hängt davon ab, ob die Institution ein eigenes Langzeitarchivierungssystem betreiben oder ein Preservation-as-a-Service (PaaS) Angebot nutzen muss, kann oder will. Im ersten Fall ist die komplette Kontrolle über Prozesse und Daten, die Entscheidungshoheit über Erhaltungsmaßnahmen und die hohe Flexibilität in der Umsetzung der institutionellen/konsortialen Anforderungen von Vorteil. Nachteile sind die Implementierungszeit, der hohe Personalaufwand verbunden mit den Anforderungen an das Know-how sowie die Hard- und Softwarekosten. Dafür kann bei Serviceangeboten die Abgabe der Kontrolle über die Archivierungsprozesse und Daten (z. B. Zugriff nur in vordefinierten Fällen) als Nachteil empfunden werden, der allerdings durch den sehr niedrigen Ressourceneinsatz aufgewogen wird.
Einen Kompromiss zwischen Eigenbetrieb und PaaS-Angebot bietet der kooperative Betrieb in einem sog. Mandantenmodell. Bei dieser Dienstleistung arbeitet der Mandant im Rahmen bestimmter Regeln und Verantwortlichkeiten selbständig in einem LZA-System und behält die Verantwortung für seine Daten und Erhaltungsprozesse. Durch geeignete Personalressourcen (Qualität, Quantität) muss der Mandant ein selbständiges und eigenverantwortliches Agieren dauerhaft sicherstellen. Die Vorteile sind, dass Hardware, Software und Infrastruktur zentral bereitgestellt werden und gemeinsame Abstimmungs- und Austauschprozesse zu Archivierungs- und Erhaltungsmaßnahmen möglich sind.
Anbieter von LZA-Services sollten zwingend transparente und zertifizierte Systeme betreiben und über sehr gute Kommunikations- und Dokumentationsprozesse verfügen.
4.4 Zugriffskonzepte
Die Steuerung und Kontrolle des Zugriffs auf die Objekte des Langzeitarchivs hängt von der dLZA-Strategie der Institution, dem Mandat für die zu erhaltenden Objekte und der Rechtesituation des einzelnen Objekts ab. Beim sog. Dark Archive beschränkt das Archiv den Zugriff auf eine begrenzte Anzahl von berechtigten Personen, ein Zugriff durch die Öffentlichkeit ist ausgeschlossen. Sollte es zu einem Datenverlust beim Eigentümer kommen oder dessen Daten nicht mehr zugänglich sein, werden auf Anfrage des Eigentümers die Daten durch die berechtigten Personen über die Access-Funktionalität des Dark-Archives bereitgestellt. Von einem Light-Archive spricht man, wenn das Archivierungssystem sog. Access-Copies (physikalische Kopien des archivierten Masters) als Nutzungsobjekte der Öffentlichkeit über seine Access-Funktionalität zur Verfügung stellt. Im Dim-Archive stehen einer definierten Nutzergruppe die Daten unter definierten Bedingungen (Trigger Events) zur Verfügung. Der Begriff gilt auch, wenn das System Inhalte über Access-Copies nur in Teilen der Öffentlichkeit zur Verfügung stellt.
Eine Sonderform des Access von dLZA-Systemen ist der Exit. Obwohl es sich um eine Daueraufgabe handelt und die Systeme langfristig ausgerichtet sind, müssen mögliche Ausstiegs- bzw. Wechselszenarien von Beginn an vorbereitet werden. Verträge, Fristen sowie Übernahme- und Weiterführungsvereinbarungen schaffen die organisatorischen Voraussetzungen. Ebenso müssen die technische Umgebung wie auch das dLZA-System selbst in der Lage sein, die archivierten Objekte mit all ihren Metadaten, Versionen und einer genauen Beschreibung der Archivierungshistorie und -aktivitäten in einer Form auszugeben, die eine Rekonstruktion der Daten auch ohne Archivierungssoftware möglich macht.
4.5 Policies
Policies als wesentliches Element der dLZA werden auf unterschiedlichen Ebenen formuliert. Auf der institutionellen Ebene beschreiben sie die Ziele, Strategien, Leitlinien und Maßnahmen der Institution sowie ihr Selbstverständnis zur Erhaltung digitaler Objekte und woher sie ihren Auftrag ableitet. Sie dokumentieren auf der operativen Ebene, was, warum, von wem und wie archiviert wird, beschreiben Arbeitsabläufe und definieren Verantwortlichkeiten. Policies dienen der Prozessdokumentation, der transparenten Darstellung aller Aktivitäten in der dLZA nach innen und außen, sind verbindliche Arbeitsanweisungen und die Grundlage für Zertifizierungsprozesse.
4.6 Zertifizierungen
Gedächtnisorganisationen gelten seit Jahrhunderten als vertrauenswürdig. Es wäre fatal, diesen Vertrauensvorschuss per se auf die Kompetenz zur Archivierung digitaler Objekte zu übertragen. Die Komplexität, Volatilität und Dynamik digitaler Objekte verlangen nach neuen Strategien. Ein Grundprinzip in der dLZA ist es, ihre Elemente (Objekte, Formate, Strukturen, Metadaten) gegen bestehende Standards zu prüfen, um u. a. ihre Authentizität und Integrität sicherzustellen. Um einschätzen zu können, ob ein digitales Langzeitarchiv vertrauenswürdig ist, muss dieser Ansatz auf alle Komponenten des Archivs übertragen werden. Der Nachweis der Vertrauenswürdigkeit bedeutet, sich einer Evaluierung zu unterziehen und deren Ergebnis sowohl nach innen als auch nach außen transparent zu machen. Damit wird die Basis für die (externe) Beurteilung der Vertrauenswürdigkeit geschaffen. Wie die dLZA selbst sind diese Evaluierungsprozesse kein einmaliger Vorgang, sondern regelmäßig zu wiederholen. Zertifizierungen unterstützen diese Prozesse, indem sie normative Strukturen für eine systematische, angemessene und bewertbare Prüfung der einzelnen Elemente eines digitalen Langzeitarchivs vorgeben und einer externen Revision unterziehen. Einen Einstieg bietet das Core Trust Seal, eine weiterreichende Zertifizierung das auf der DIN 31644 basierende nestor-Siegel.
5 Erhaltungsmaßnahmen
5.1 Signifikante Eigenschaften
Signifikante Eigenschaften zu erhaltender Objekte garantieren deren formatunabhängige Bewahrung in möglichst authentischem Zustand. Sie werden anhand der Anforderungen an das Langzeitarchiv und der Bedürfnisse der Nutzergruppen (Designated Community) durch die Institution definiert, dabei wird zwischen technischen und organisatorischen Eigenschaften unterschieden. Technische Eigenschaften bilden die aktuellen, strukturellen, funktionalen und inhaltlichen Charakteristika von digitalen Objekten ab. Sie sind in sog. Format Libraries definiert und können mit geeigneten Metadatenextraktoren als technische Metadaten extrahiert werden. Organisatorische Eigenschaften sind allgemeine Anforderungen an Bestandserhaltungsprozesse und müssen manuell überprüft werden. Sie können im Preservation-Planning-Prozess als alternative Evaluationskriterien definiert werden.
5.2 Risiko-Management
Risiken können technische oder administrative Eigenschaften, Prozessmetadaten oder Daten-Analyseergebnisse sein. Diese können institutionsspezifisch in der Format Library pro Dateiformat definiert werden. Das Risiko einer Obsoleszenz droht etwa, wenn Dateiformate mit keinem in der Format Library gelisteten Wiedergabeprogramm verknüpft sind. Eine fehlerhafte Formatspezifikation durch die Erstellungssoftware bildet ein weiteres Risiko. Risikoanalysen sind regelmäßig durchzuführende automatisierte oder manuelle Aufgaben, auf deren Basis die Institution über Bestandserhaltungsmaßnahmen entscheidet. Sie können auch ohne vorangegangene systemgesteuerte Risikoanalyse durchgeführt werden.
5.3 Preservation Management
Preservation Management basiert sowohl auf der Beobachtung technologischer Veränderungsprozesse (Technology Watch) – insbesondere in der Formatcommunity – als auch auf den sich wandelnden Bedürfnissen der Nutzergruppen und deren Verhalten (Community Watch). Preservation Planning beginnt, wenn die beobachteten Veränderungen Auswirkungen auf die Objekte im Langzeitarchiv haben. Es basiert auf den definierten Risiken unter Berücksichtigung vorhandener Abhängigkeiten und besteht aus der Planung und den Tests von alternativen Erhaltungsmaßnahmen sowie der Dokumentation der Entscheidungswege. Bei der Preservation Action werden anschließend die geplanten Erhaltungsmaßnahmen in der Regel als Formatmigration oder Emulation durchgeführt.
5.4 Formatmigration
Formatmigration bedeutet die Übertragung von Daten von einem Format in ein anderes (oder eine neue Version des gleichen Formattyps), wenn es veraltet oder risikobehaftet ist. Der (geistige) Inhalt der Datei darf dabei nicht verändert werden. Wie jeder digitale Eingriff ist die Formatmigration mit Risiken verbunden, bspw. unbeabsichtigte Veränderungen von Dateiinhalt oder -struktur, Verlust wesentlicher Informationen oder die Einführung neuer Fehler. Umso wichtiger ist es, Formatmigrationen basierend auf den im Preservation Planning definierten Evaluationskriterien (bspw. signifikante Eigenschaften) durchzuführen und alle Prozessschritte zu dokumentieren und als Metadaten zu den Objekten abzulegen.
5.5 Emulation
Bei der Emulation bleibt das digitale Objekt (eine einzelne Datei oder das Abbild eines Datenträgers) unverändert. Es wird versucht, die ursprüngliche Nutzungsumgebung (Hardware, System-, Anwendungssoftware), in die das digitale Objekt eingebettet war, in einer aktuellen Computerumgebung mithilfe von Software nachzubilden. Ein Anwendungsbeispiel für Emulation in der dLZA ist die Einbindung eines Emulation Framework (Emulation as a Service – EaaS) als Viewer in ein Langzeitarchivierungssystem, wobei die Parameter für die Emulationsumgebung in den technischen Metadaten gespeichert werden. Beim Aufruf wird das entsprechende Objekt an das Emulation Framework geliefert und dort geladen.
Thomas Bär in: Langzeitarchivierung; Grundlagen der Informationswissenschaft; 7., völlig neu gefasste Ausgabe, De Gruyter, 2023
https://creativecommons.org/licenses/by/4.0/
https://doi.org/10.1515/9783110769043
Zur einfacheren Lesbarkeit wurden die Quellen- und Literaturverweise entfernt.