Langfristige Informationsspeicherung

V. Risak, v.risak@aon.at

Stand vom 17. 2. 2012

0. Zusammenfassung

Langfristige Informationsspeicherung stellt ganz andere Anforderungen als die heutigen dynamischen Web-Seiten und insbesondere die aktualitätsorientierten "sozialen Netze".
Ausgehend von frühesten Dokumenten, wie Keilschrifttafeln und "Papyrus" über Papierdokumente und heute das Internet wird zunächst auf die Geschichte und die mögliche Zukunft der Textverarbeitung eingegangen.
Dabei wird gezeigt, dass mit der vorwiegenden Benutzung magnetischer und optischer Speichermedien ab Mitte des 20. Jahrhunderts die Gefahr eines niemals vorher aufgetretenen Kulturbruches besteht, der zum mehr oder weniger vollständigen Verlust aller Dokumente führen kann. Daraus ergeben sich Forderungen nach Plattform-, Betriebssystem- und Anwendungs-unabhängiger Speicherung.
Die Informationen auf dem Speichermedium müssen von Menschen (mit geeigneten Hilfsmitteln wie Mikroskopen) und von noch nicht bekannten Maschinen gelesen werden können. Zusätzlich sollen die Folgen möglicher materieller Fehler (Fehlstellen) möglichst gut korrigiert werden können. Die Nutzung von XML ist hier reinen Texten vorzuziehen.
Erweiterte Fassung eines Magazinartikels /5/

Stichworte: Informationsspeicherung, langfristig, Informationsverlust, XML

Summary

"Long Term Storage of Information"

The requirements of long term storage of information are very different from the maintenance of dynamic web-pages and especially the actuality-oriented "social nets".
Described are the history and possible future of text-processing, beginning with very early documents like cuneiform tabels, papyrus, paper and today the internet.
In the mid of the 20th century a new danger arrived caused by the prominent use of magnetic storage-media with very limited lifetime, which can cause a total loss of the stored information followed by a severe cultural break. From this follows the necessity of platform-, operating-system- and application-independent storage.
Man and computer must be able to read the same stored information from the media. Partial damages of the storage media shall be compensated as good as possible. One consequence is to use XML instead of plain, unstructured text.

Keywords: information-storage, long-term, information-loss, XML

1. Einführung

Der einzelne Mensch, aber auch Staaten und Organisationen hatten immer schon das Bestreben, ihre wesentlichen Texte der Nachwelt zu sichern.3 Diese Texte können u.a. sein:

Man kann dies alles als Kulturerbe der Menschheit zusammenfassen.

Aber auch individuell gibt es das Streben, nicht für immer vergessen zu werden. Das wird in Goethes "Faust" sehr schön ausgedrückt durch: "Es soll die Spur von meinen Erdentagen nicht in Äonen untergehn ..."

Mit diesen Anliegen beschäftigt sich der folgende Text.

Nicht zum Thema gehören dynamische Web-Sites und die "sozialen Netze", die sich extrem auf Aktualität konzentrieren.

1.1 Problemstellung

Die Inhalte im WWW (World Wide Web) kann man grob in

Seiten unterteilen.

Dynamische Seiten bieten jeweils aktuelle Inhalte für den Nutzer an; diese Inhalte können wesentlich durch die Interaktion mit dem Nutzer gesteuert werden. Meist werden deren angezeigte Inhalte erst unmittelbar vor der Anzeige aus Datenbanken, errechneten Teilen, usw. zusammengestellt.

Wesentliches Ziel ist die Nutzeranpassung und Aktualität, wie sie u.a. im Bereich des eCommerce unbedingt notwendig ist. Dabei müssen z.B. Lagerbestände laufend aktualisiert werden. Bei elektronischer Versteigerung müssen die jeweiligen Höchstangebote, die von ganz verschiedenen Nutzern stammen, jeweils dem neuesten Stand entsprechen.

Hingegen sind früher angezeigte Inhalte wertloser "Schnee von gestern". Sie könnten höchstens für Archivzwecke oder statistische Auswertungen genutzt werden.

Dynamisch erzeugte Seiten hängen wesentlich von Datenbanken wechselnden Inhalts, von Kommunikationsvorgängen, ... ab. Sie werden meist aus Inhalts-Bausteinen unter Verwendung von Script-Sprachen, abhängig von der Interaktion mit dem Nutzer unmittelbar vor der Übertragung an den Browser des Nutzers aufgebaut. Nur an dieser Stelle sind sie als HTML-Text (HTML = Hypertext Mark Up Language) kurzfristig greifbar und könnten zu Beweiszwecken vom Nutzer ausgedruckt werden. Durch ihre Flüchtigkeit sind sie nicht zitierfähig. Wird das übersehen, so kann ein späterer Nutzer eines Verweises ganz andere Inhalte sehen als ein früherer. Das ist ein ganz wesentlicher Unterschied gegenüber gedruckten Vertriebskatalogen. Auch diese sind nur kurzfristig gültig. Man kann sich aber, z.B. für Preisvergleiche, auf den Katalog des Vorjahres beziehen.

Auch die "sozialen Netze" sind wesentlich auf Aktualität konzentriert, langfristige Speicherung von Informationen wird eher als unerwünschter Nebenfeefekt gesehen ("Das Web vergisst nie.")

Statische Seiten hingegen enthalten stabile Inhalte, die sich, wenn überhaupt, nur selten ändern. Sie sind als unveränderte HTML- oder XML-Texte (XML = eXtensible Markup Language) gespeichert1. Statische Seiten stehen auf dem Server in endgültiger Form; sie werden auf Anfrage direkt - ohne Vorverarbeitung - an den Browser übertragen. Sie verwenden keinerlei Scripts, die entweder vom Server oder vom Browser ausgewertet werden müssen. Dadurch wird die Unabhängigkeit von speziellen Betriebssystemen, Interpretern, ... sichergestellt. Dies ist ein ganz wesentlicher Unterschied zu den dynamischen WWW-Seiten, die erst auf Anforderung zusammengestellt werden.

Solche statischen Informationen kommen nicht nur im WWW vor, sie entsprechen in gedruckter Form Büchern, Zeitschriften, ... in Bibliotheken und Archiven. In der Natur entspricht ihnen die genetische Information aller Lebewesen.2

Aktualität spielt keine Rolle. Wohl aber muss das Erstellungsdatum (auch als Meta-Information) angegeben sein, um die Zitierfähigkeit zu gewährleisten.

Durch ihre langfristige Stabilität sind statische Seiten zitierfähig; d.h. der Leser kann sich darauf verlassen, dass der angezeigte Inhalt dem entspricht, was der Zitierende sah.

Es wäre nützlich, die Stabilität von WWW-Seiten in geeigneten Metainformationen12 anzugeben; dann könnten Browser diese als Warninformation dem Nutzer bekanntgeben. Auch könnten Suchmaschinen angewiesen werden, nur Dokumente ab einer bestimmten Stufe der Stabilität anzuzeigen.

Dem Thema "langfristige Informationsspeicherung" entsprechend, werde ich mich im Folgenden auf statische Seiten beschränken. Eine gute Übersicht über dynamische WWW-Seiten ist der Diplomarbeit von Laireiter /3/ zu entnehmen.

1.2 Geschichte und Zukunft der Textverarbeitung

Es wird die Entwicklung der Textverarbeitung kurz dargestellt. Dabei wird angegeben, ob der Dokumententyp dauerhaft (langfristig nutzbar) ist oder nicht.

Technologie Dauerhaft Nutzbarkeit Bemerkungen
Keilschrifttafel ja veraltet Kleine Datenmengen,
handschriftlich erstellte Originale
Wachstafel nein veraltet Kleine Datenmengen,
temporär, wiederverwendbar
Papyrus-Schriftrolle ja veraltet Große Datenmengen, wie File längsorientiert, oder wie in pdf spaltenorientiert
handschriftlich erstellte Originale
Handgeschriebenes Buch (Corpus) ja veraltet Große Datenmengen, seitenorientiert,
handschriftlich erstellte Originale
Buchdruck mit Einzellettern ja veraltet Wie Corpus, aber in vielen Kopien hergestellt
Schreibmaschine ja veraltet Einzeldokumente, nicht änderbar
Speicherschreibmaschine ja veraltet Mehrere Kopien einzeln herstellbar, Texte änderbar
Buchdruck mit Lichtsatz ja aktuell Einzeln geschrieben, beliebig viele Kopien
Textverarbeitung mit PC nein aktuell Einzeln geschrieben, elektronisch gespeichert, beliebig änderbar; dauerhaft nur nach Ausdruck
Vernetzung dezentral gespeicherter Dokumente (WWW) nein aktuell Erstellung durch mehrere Autoren, weltweite Nutzung, meist nur am Bildschirm, schwer kontrollierbare Änderungen
PDA/Organizer nein aktuell Kleine Dokumente, zunehmend vernetzt; jedoch vorwiegend zum persönlichen Gebrauch; Nutzung vom Bildschirm her, selten ausgedruckt
Smart-Phones und
Tablet-Computer
nein/ja aktuell Kommunikationsorientiert,
vernetzt

Unter den aktuellen Dokumententypen eignen sich nur der Ausdruck und die Aufbewahrung der gedruckten Dokumente für die langfristige Speicherung unmittelbar. Das ist die Funktion von Bibliotheken und Archiven. Die elektronische Speicherung von Dokumenten auf Platten, Magnetbändern, CD, ... ist im allgemeinen maximal für einige Jahre stabil. Diese Medien sind aber hervorragend für die Speicherung und Verarbeitung dynamischer Inhalte geeignet.

1.3 Der Medienbruch durch elektronische Speicherung

Sieht man sich die Technologien in der obigen Tabelle an, so merkt man, dass sich - ca. 1960 - mit der Einführung elektronischer Speichermedien ein Bruch in der langfristigen Speicherung von Dokumenten ergab. Mit Ausnahme der für temporäre Notizen gedachten Wachstafeln verwendeten alle früheren Medien (Stein, gebrannter Ton, Papyrus, Pergament und Papier) sehr dauerhafte Medien, die bei geeigneter Lagerung Jahrtausende überdauern können.

Der Hauptvorteil elektronischer Medien liegt in der schnellen Speicherung und leichten Änderbarkeit der Inhalte, ohne die die moderne Informationsverarbeitung nicht möglich wäre. Anfänglich waren diese Medien extrem teuer und boten relativ kleine Speicher, heute sind diese Probleme gelöst.4
Dieser Vorteil wird aber - für statische Inhalte - durch die geringe zeitliche Stabilität diese Medien verringert.5
Zur Sicherung der Inhalte ist daher in regelmäßigen Abständen das Kopieren auf neue Medien notwendig. Das funktioniert bei digitalen Aufzeichnungen ohne Qualitätsverlust. Bei analogen Aufzeichnungen (Magnetbänder, Photos, Filme) bedeutet jede Kopie einen wesentlichen Qualitätsverlust. Wir werden später noch näher darauf eingehen.

Die Vorteile der digitalen Speicherung auf magnetischen oder Halbleiter-Datenträgern sind aber so groß, dass sie die bisherige Technologie auf Papier ausgedruckter Informationen weitgehend 7 verdrängte. Man kann sich ja in den - seltenen - Fällen, in denen man diese Informationen nicht vom Bildschirm liest, immer noch einen Ausdruck machen.

Hinzu kommt noch, dass die Informationen heute nicht mehr (wie bis zu den 80er Jahren des vergangenen Jahrhunderts) zentral gespeichert sind. Seit der Einführung und weltweiten Verbreitung des World-Wide-Web (WWW) sind viele - auch zusammengehörige - Informationen global dezentral gespeichert. Heute wird immer mehr die Speicherung, aber auch Verarbeitung in der "Cloud" angeboten.6 Durch ihre Vernetzung können sie jedoch weltweit von beliebigen Orten aufgerufen werden.

Wichtig ist bei den genannten elektronischen Speichermedien, dass sie zwar von Computern gelesen werden können; für den Menschen sind sie aber nicht mehr unmittelbar lesbar.

1.4 Gefahr eines Kulturbruches

Die oben erwähnte global verteilte, dezentrale Speicherung des größten Teils der verfügbaren Informationen auf elektronischen Medien führt zu einer Abhängigkeit vom Funktionieren des WWW. An sich bietet diese verteilte und teilweise redundante Speicherung hohe Sicherheit gegen Totalausfall der Informationstechnologie.8
Das gilt aber nur für lokale oder regionale Ausfälle der IT-Infrastruktur. Wenn aber die gesamte IT-Infrastruktur der Welt für einen längeren Zeitraum (etwa für mehr als 10 Jahre) zusammenbräche, wäre die vorher gespeicherte Information endgültig verloren. Dann könnte zwar vielleicht die Infrastruktur technisch wiederhergestellt 9 werden, doch wären dann die Datenspeicher aufgrund ihrer relativ kurzen Lebensdauer nicht mehr lesbar.

Ein solcher Totalzusammenbruch der IT-Struktur ist zwar sehr unwahrscheinlich, doch gab es eine ähnliche Katastrophe schon einmal in unserer Geschichte. Nach dem Zusammenbruch der römischen und hellenistischen Reiche am Ende des Altertums gingen große Teile der wissenschaftlichen, künstlerischen und sonstigen Dokumente endgültig verloren. Ich erinnere dabei an das "Spitzenereignis" des Brandes der Bibliothek von Alexandria. Aber auch anderenorts wurden Bibliotheken, kaufmännische und geschichtliche Archive unwiderbringlich vernichtet. Dazu kam noch, dass - wegen des extrem hohen Preises - das Schreibmedium (Pergament oder Papyrus) durch Abschaben und Neubeschreiben mehrfach verwendet wurde, wodurch ältere Texte gelöscht wurden.

In diesem Umsturz ging weiters die Fähigkeit zu lesen und zu schreiben fast völlig verloren. Nur in Nischenbereichen blieben Fragmente erhalten. Dies bezieht sich einerseits auf versteckte Dokumente, die aufgrund günstiger Umstände der Lagerung über Jahrtausende erhalten blieben (man denke an die Qumran-Schriftrollen), oder dass in kleinen Gemeinschaften, den frühen Klöstern, die grundlegenden Kulturtechniken vor allem des Lesens, aber auch des Schreibens aktiv gepflegt wurden. So findet sich in der aus dem 6. Jhd. stammenden Benediktregel /2/ an vielen Stellen die Betonung des Lesens und des Vorlesens. Unter den wenigen Gegenständen, die ein Mönch braucht, wird in Kap. 33 die Schreibtafel ausdrücklich erwähnt.

Die damalige (siehe die obige Tabelle) Technologie handgeschriebener Bücher, war sehr langsam (z.B. dauerte das Abschreiben einer Bibel viele Jahre) und in diesen kleinen Gemeinschaften standen dazu nur geringe Personalressourcen zur Verfügung. Und doch wurden auf diese Weise wichtige - nicht nur geistliche - Werke gerettet.
Ein anderer Weg der Rettung antiker Informationen ging über die islamische Welt, die vom Zusammenbruch im Westen nicht zeitgleich betroffen wurde.

Betrachtet man die geschichtlichen und kulturellen Auswirkungen dieser Katastrophe, die jedoch nur Teile der Welt betraf, so kann man sich vorstellen, was ein Totalzusammenbruch des Internet bedeuten würde. Hier muss man sich zusätzlich bewusst sein, dass dessen Technologie viel komplexer ist und nach einem technologischen Zusammenbruch viel schwerer wiederaufzubauen wäre, wenn die Computer und Datennetze nicht mehr hergestellt werden können. Dann ist es für eine begrenzte Zeit vielleicht möglich, die Restbestände der Infrastruktur weiter zu nutzen; diese kann aber nicht mehr nachbeschafft werden. In dieser - begrenzten - Zeit müssten dann die notwendigsten Sicherungsmaßnahmen, etwa der Ausdruck von - noch - verfügbaren Dokumenten, ... durchgeführt werden. Diese Situation wird in einem Science-Fiction-Roman "Der Untergang der StadtPassau" /1/ von J. Amery sehr anschaulich dargestellt. Darin werden verschiedene Überlebensstrategien, wie:

einander gegenübergestellt.

Die möglichen Gefährdungsszenarien und mögliche Recovery-Strategien werden in den folgenden Abschnitten näher besprochen.

2. Gefährdung von Information

Es gibt Gefährdungen auf mehreren Ebenen:

2.1 Zerstörung des Datenträgers

Diese Zerstörung kann mechanisch (Zerbrechen von Tontafeln und Verlorengehen der Bruchstücke, Verbrennen oder chemische Einwirkungen, ...) auftreten. In diesem Fall ist die gespeicherte Information unwiederbringlich verloren.

Es ist aber auch möglich, dass der Datenträger nur teilweise zerstört ist; ev. können einzelne mehr oder weniger zusammenhängende Bruchstücke erhalten bleiben. Schadensbilder können u.a. sein: Fehlstellen durch Feuer, chemische Einwirkungen oder Tierfraß. In diesen Fällen bleibt die physikalische Struktur eines Buches, einer Schriftrolle, ... mehr oder weniger erhalten. Ist der Datenträger aber zerbrochen und sind die Bruchstücke durcheinander gemischt, so kommt noch das Problem der richtigen Anordnung der Teile hinzu.
Die fehlenden Informationen sind verloren; die erhaltenen Bruchstücke können mit viel Mühe wieder zusammengefügt werden. Wenn die Dokumentenstruktur bekannt oder reproduzierbar ist, kann diese Information zur teilweisen Wiederherstellung genutzt werden (siehe den Abschnitt "XML zur Textstrukturierung"). Hat das betroffene Dokument aber eine komplexe oder unbekannte Struktur (wie ein doc-File), so ist die Wiederherstellung fast unmöglich, wenn Schlüsselinformationen betroffen sind.

Existieren von einem Dokument mehrere (mehr oder weniger übereinstimmende) Kopien, so kann man hoffen, dass nicht alle Dokumente in der selben Weise betroffen sind. Durch Vergleich10 der parallelen Dokumente kann eine bessere Rekonstruktion erreicht werden.

Ist der Datenträger teilweise zerstört und nur ein Exemplar vorhanden, so hängt es auch von der Art der gespeicherten Information ab, wieweit die gestörte Information rekonstruiert werden kann.
So kann ein Kratzer auf einer Musik-CD vielleicht einen Knacks oder - durch Interpolation - unsauberen Klang verursachen. Der selbe Kratzer auf einer - technisch identischen - Software-CD kann durch Verlust weniger Bytes Programme zerstören11.

2.2 Zerstörung der gespeicherten Information

Die üblichen Datenträger können Informationen nur für begrenzte Zeit sicher speichern, wenn diese Informationen nicht regelmäßig aufgefrischt werden. Die "Lebensdauer" der Daten beträgt bei Floppy-Disks ca. ein Jahr, bei CDs etwa 10 Jahre. Ähnliches gilt für Magnetbänder. D.h. diese Datenträger sind für wirklich langfristige Datenspeicherung ohne regelmäßiges Auffrischen nicht geeignet. Die Gründe können ein Nachlassen der Magnetisierung oder Oberflächenveränderungen optisch lesbarer Datenträger sein. Insbesonders proprietäre Datenformate, wie sie z.B. in doc-Files für WINWORD verwendet werden, sind hinsichtlich solcher punktueller Fehler problematisch; bei Markup-Sprachen, wie XML, die eine Klartextdarstellung (mit jedem Editor lesbar) verwenden, sind solche "Punktmutationen" unkritischer, da sie durch die Tags eingrenzbar sind.
Dasselbe Problem tritt in der Biologie bei mehr oder weniger kritischen "Punktmutationen" auf.

Sollen Informationen langfristig in gedruckter Form gespeichert werden, so kommt es sehr auf das Trägermedium und die verwendete Tinte an. Während (bei geeigneten Umgebungsbedingungen) jahrtausendealte Papyrusrollen noch heute lesbar sind, löst sich bei manchen mit Laserdruckern erstellten Dokumenten die thermisch aufgebrachte Farbe (besonders bei höherer Lagerungstemperatur) ev. schon nach einigen Monaten vom Papier, bzw. verblassen ungeeignete Tinten nach einigen Jahren.

2.3 Nicht mehr verfügbare Lesegeräte

Durch die stürmische Entwicklung der Speichertechnologie tritt relativ kurzfristig - innerhalb einiger Jahre - der Fall ein, dass zwar die Datenträger noch vorhanden und einsatzfähig sind, jedoch die zugehörigen Lesegeräte nicht mehr (so leicht) verfügbar sind. Insbesondere, wenn die Datenträger nicht von Menschen - z.B. mittels eines Mikroskopes - direkt gelesen werden können, ist dann der Zugriff zu den gespeicherten Informationen nicht mehr möglich.

So berichtete vor einiger Zeit die NASA, dass die Magnetbänder der früheren Mondmissionen (ca. 1968) nicht mehr gelesen werden können, da durch den technischen Fortschritt keine Magnetbandgeräte mit entsprechend niedriger Schreibdichte mehr verfügbar sind. Ähnlich ist die Situation, wenn man heute ein Diskettenlaufwerk für 5,25" Disketten sucht.

Hingegen kann ein Computerausdruck noch lange vom Menschen, bzw. über einen Scanner gelesen werden, wenn die erhaltene Druckqualität ausreicht.

2.4 Nicht mehr verfügbare Lesealgorithmen

Datenträger und Lesegerät sind zwar verfügbar, jedoch können die darauf gespeicherten Daten nicht sinnvoll interpretiert werden. Das kann verschiedene Ursachen haben:

Das Alphabet, die Schreibrichtung, ... sind nicht bekannt; die verwendete Zeichentabelle (die sehr umfangreich sein kann, wie im Unicode /8/) ist nicht bekannt.
Hier kann es entscheidend helfen, wenn der Text in mehreren Sprachen verfügbar ist. Das war beim Stein von Rosette der Fall. Auf ihm ist der selbe Text in Griechisch, Demotisch und in Hieroglyphen aufgezeichnet. Das half Champollion zur Entschlüsselung der Hieroglyphen. Eine ähnliche Rolle könnten durch Zufall erhalten gebliebene mehrsprachige Bedienungsanleitungen spielen, wie sie jedem Rasierapparat o.ä. beiliegen.

Der Text ist verschlüsselt. Das Verschlüsselungsverfahren und/oder der Schlüssel (der üblicherweise ja nicht mit dem Dokument aufbewahrt wird) gingen verloren.
Langfristig zu speichernde Dokumente sollten daher nicht verschlüsselt werden. Im Fall langfristiger Speicherung (> 70 Jahre) fallen rechtliche, politische oder wirtschaftliche Gründe zur Verschlüsselung meist weg.

Der Text enthält unbekannte, nicht mehr auswertbare Scripts in einer unbekannten Sprache. Das ist eine typische Folge von Seiteneffekten (Einfluss der Betriebssystemumgebung).
Für langfristige Speicherung dürfen keine Plattform- oder Betriebssystem-Abhängigkeiten mehr bestehen. Als weitere Konsequenz dürfen nur statische Texte langfristig gespeichert werden. Dynamische Texte, die aufgrund von Scripts, von Umgebungsvariablen und Nutzereingaben von einem Server ad hoc zusammengestellt werden, sind hierfür ungeeignet.

Die zugehörigen Textverarbeitungsprogramme (meist mit proprietärem Speicherformat) sind nicht mehr verfügbar. Dies kann schon innerhalb weniger Jahre zu Problemen fuehren. Wichtige Anbieter wechseln aus wirtschaftlichen Gründen ihre Speicherformate schnell. Es gibt zwar für viele Formate Filter, diese reichen aber oft nicht weit genug zurück. Man versuche z.B. einen mit WORD5 (fuer DOS) geschriebenen Text zu öffnen, insbesondere wenn dieser im Modus Schnellspeicherung gesichert wurde.
Ein Test für die spätere Interpretierbarkeit wäre es, die gespeicherten Daten mittels eines einfachen Texteditors zu öffnen und zu versuchen, aus dessen Ausgabe den Inhalt zu rekonstruieren.
Hier hilft die Speicherung als reiner Text oder besser noch in einer auf reinem Text beruhenden Markup-Sprache wie XML. Einige Textverarbeitungssysteme stellten ihr Ausgabeformat in neuen Versionen bereits auf XML um.

3. Maßnahmen zur langfristigen Speicherung

Für eine langfristige Speicherung kommen nur statische Informationen in Frage. Dynamische Web-Seiten wie aus dem eCommerce, sind jeweils für aktuelle Informationen extrem wichtig, verlieren aber mit der Zeit sehr schnell an Bedeutung. Außerdem werden diese Seiten jeweils auf eine konkrete Anfrage, mit Hilfe von speziellen Programmen (Scripts) aus Datenbankinhalten zusammengebaut. Die langfristige Nichtverfügbarkeit dieser Datenbanken und die Abhängigkeit von Programmiersprachen und Betriebssystemen verhindert eine wirklich langfristige Speicherung.

3.1 Entscheidung, was gespeichert werden soll

Aufgrund der immer begrenzten Ressourcen ist es wichtig zu entscheiden, welche Dokumente es wert sind, langfristig zugänglich zu sein. Dabei muss auch - wegen des mehr oder weniger großen Speicheraufwandes und der einfachen Zugänglichkeit - entschieden werden, welche Dokumente als Faksimile, welche als reiner Text zu sichern sind.

Hier tritt das Problem auf, vorher zu wissen, was einmal - auch in ganz anderem Kontext - besonders wichtig sein kann. Wer hätte etwa vor tausend Jahren wissen können, dass eine nur lokal wichtige juristische Urkunde - nämlich die Ostarrichi-Urkunde für Österreich als "Gründungspapier" (erste Nennung von Ostarrichi) so wichtig werden würde. Sie wurde als Vertrag geschrieben, hat aber nun vorwiegend für die Geschichtswissenschaft und das Selbstverständnis Österreichs Bedeutung.

Diesen Fragen widmet sich das UNESCO-Projekt "Memory of the World" /6/ gezielt. Es gibt aber auch extrem große Archive in gedruckter und elektronischer Form, in denen ohne Vorauswahl alle anfallenden Dokumente gesammelt werden.
Es ist interessant, dass viele der gefundenen Keilschrifttafeln solchen alten Archiven entstammen. Sie enthalten oft Inventurlisten, Verträge, usw.

Hier scheitert man am reinen Mengenproblem. Es kann daher nicht ausgeschlossen werden, dass unwichtige Dokumente gesichert wurden, während aktuell uninteressante, aber langfristig wesentliche Dokumente verlorengehen.

3.2 Allgemeine Anforderungen an die langfristige Speicherung

Langfristige Speicherung von Informationen kann grundsätzlich mit zwei wesentlich verschiedenen Verfahren angestrebt werden:

Interessant ist die "Wayback Machine". Ähnlich wie andere Internet-Suchmaschinen besuchen Crawler (Suchroboter) im Abstand einiger Monate einen großen Teil der Seiten im Internet, bzw. kann man selbst Seiten einbringen. Die Wayback Machine speichert (seit etwa 1998) auch alte Versionen von Dokumenten, sie erfüllt damit typische Archiv-Aufgaben. Bei Angabe einer URL erhält man eine Anzeige aller verfügbaren Versionen, die dann unmittelbar aufrufbar sind. Dzt. sind Dokumente (incl. Videos und Musikstücken) im Umfang von ca. 420.000 Web-Sites gespeichert. Wie sehr dieses Archiv bei derartig extremen Datenmengen eine wirklich langfristige Informationsarchivierung ermöglicht, muss noch abgewartet werden.

3.2.1 Regelmäßige Sicherung

Das Problem nicht langfristig nutzbarer Datenträger kann umgangen werden, indem man die Daten in regelmäßigen Abständen auf jeweils neue Datenträger schreibt. Um Fehler zu vermeiden, sollte dazu das Großvater, Vater, Sohn-Prinzip verwendet werden. (Der Großvater darf erst nach der Geburt des Sohnes sterben.) Dann hat man immer zwei nutzbare Kopien.

Die Abstände zwischen aufeinanderfolgenden Sicherungen hängen von der Dynamik der Inhalte und von der zumindest erwarteten Lebendauer der Datenträger ab. In unserem Fall spielt die z.B. tägliche Sicherung von dynamischen Inhalten keine Rolle, sondern es geht um die unverfälschte Sicherung statischer Daten. In eine jährliche Sicherung kann man aber einen Technologiewandel gut integrieren.

Diese Methode hat den - schwerwiegenden - Nachteil, dass dauernd eine funktionsfähige Infrastruktur hinsichtlich IT-Technologie und Aufbewahrung der Datenträger gewährleistet sein muss. Auf die damit verbundenen Risiken wurde schon oben hingewiesen.

Der einzige Fall, wo diese regelmäßige Sicherung - seit Milliarden Jahren - funktioniert, ist die Weitergabe von Erbinformation in lebenden Zellen. Hier bilden die Information (DNS) und die Werkzeuge zur Decodierung und Kopie eine Einheit, die als Ganzes reproduziert wird.
Entscheidend wichtig ist hier aber die extreme Redundanz, die in technischen - auch dezentralen - Systemen so nicht erreichbar ist.

Eine experimentelle Nutzung von Bakterien-DNS zur Informationsspeicherung (Texte) wurde kürzlich von McDowell /4/ beschrieben. Dabei werden beliebige Texte in die DNS von Bakterien "eingeklammert" eingebaut. Die Texte werden - wie in der Biologie üblich - in Triplets von Basenpaaren codiert. Die Einklammerung verhindert das Auslesen dieser Information für die Eiweißsynthese. Diese Informationen werden aber bei der Reproduktion dieser Bakterien unverändert weitergegeben. Das Verfahren ist - wegen der biologischen Kontroll- und Reparatur-Mechanismen - so stabil, dass die Informationen für mehr als 100 Bakteriengenerationen korrekt weitergegeben wurden.

Diese biologische regelmäßige Informationssicherung verbindet die Nutzung großer Redundanz mit der Fehlerkorrektur in lebenden Zellen. Die biochemische Technologie dazu ist im Labor schon vorhanden.

Verwendet man Bakterienstämme, die gegen ungünstige Umwelteinflüsse (Temperatur, UV-Licht, Austrocknung, ionisierende Strahlen) unempfindlich sind, so könnten Katastrophen (wie ein nuklear ausgelöster elektromagnetischer Impuls, der normale IT-Strukturen zerstört) eventuell abgefangen werden.

3.2.2 Einmalige dauerhafte Sicherung

Dazu speichert man die zu sichernde Information ein einziges Mal (oder in wenigen identischen Kopien) mit höchstmöglicher Qualität und lässt dann das (ev. versiegelte) Medium gut geschützt einfach liegen.

Wegen der Risiken der regelmäßigen Speicherung werde ich mich nun nur mehr mit der einfachen Speicherung unter höchsten Qualitätsstandards beschäftigen. Dazu müssen folgende Forderungen erfüllt sein:

3.2.3 Technologie-neutral

bedeutet, dass das Medium möglichst unabhängig von speziellen Geräten, Rechnern, Betriebssystemen und Anwendungsprogrammen lesbar ist. Wie schnell dieses Lesen möglich ist, spielt keine Rolle.

3.2.4 Lesbarkeit durch Mensch und Maschine

bedeutet, dass sowohl ein Mensch als auch eine (zukünftige) Maschine dazu in der Lage ist, das gespeicherte Original zu lesen. So könnte ein Mensch mikroskopisch kleinen Text mit einem optischen Mikroskop direkt lesen; ein Rechner könnte dazu einen Mikroskop-Scanner mit Zeichenerkennung verwenden. Hingegen können verschlüsselte Daten so nicht gelesen werden.

Diese Lesbarkeit sollte weitestgehend auch bei Beschädigung des Trägermediums weitgehend gesichert bleiben.

3.2.5 Beständigkeit der Speichermedien

Es muss sich um ein Medium höchster zeitlicher Stabilität handeln, das zudem möglichst beständig gegenüber Umwelteinflüssen ist. Das waren einst Tontafeln als Träger der Keilschrift; heute wird z.B. hochreines Metall oder Glas, ... vorgeschlagen (vgl. das "Long Now Project" /9/) Natürlich müssen auch geeignete Lagerorte mit möglichst geringen Umwelteinflüssen (dazu zählen auch Plünderer) gesucht werden.

3.2.6 Organisatorische Anforderungen

Die Informationssammlungen ("Zeitkapseln") dürfen nicht verlorengehen, sei es durch physische Zerstörung, sei es durch Vergessenwerden ohne Hinweise auf ein Wiederauffinden. Hier könnten - dezentrale - Hinweise die "Schatzsuche" erleichtern.

Als Bewahrer dieser Informationsbestände können Organisationen dienen, deren Selbstverständnis auf Jahrhunderte ausgerichtet ist. Nach dem Kulturbruch vor dem frühen Mittelalter waren das die Klöster, in deren Bibliotheken noch jetzt jahrtausendealte Dokumente bewahrt werden.
Ein interessanter Versuch ist das MOM-Projekt /12/, das alte Textbestände aus Klöstern als Faksimile, als Transkription, mit Anmerkungen, ... speichert. Durch die Nutzung des WWW ist auch eine Vernetzung dieser (physisch dezentral gespeicherten) Texte als Hypertext möglich.

Es sollte auch entschieden werden, wie und für welche Zielgruppen die Zugänglichkeit ermöglicht werden soll. Eine auf ein zeitliches Zieldatum ausgelegte Speicherung ist günstiger als eine, die auch in der Zwischenzeit interessierten Gruppen offensteht. Das hat wesentlich mit der Frage der Bibliotheksorganisation zu tun. Eine Organisationsform, die gut für die Bücher ist, muss hinsichtlich der Zugänglichkeit extrem restriktiv sein. Sie kann z.B. zur Nutzung nur Kopien bereitstellen.
Die andere Form ist gut für die Leser, aber schlecht für die Bücher; z.B. eine öffentliche Handbibliothek.

4. Szenario einer Realisierung

Hier sollen beispielhaft miteinander verträgliche Möglichkeiten zur langfristigen Speicherung von Dokumenten zusammengestellt werden.

4.1 XML zur Textstrukturierung

Ich kann hier nicht auf die Details von XML (eXtensible Markup Language) eingehen; Interessenten seien auf die offizielle Dokumentation beim Standardisierungskomittee X3C /7/ verwiesen.

In unserem Zusammenhang sind aber einige Eigenschaften von XML wichtig:

4.2 Beispiel

An Hand eines Beispieltextes (Beginn der Benediktregel in deutscher Übersetzung) sollen die verschieden gute Lesbarkeit und Rekonstruierbarkeit eines Dokumentes demonstriert werden.

Der Text wird zunächst ohne Zwischenräume, ohne Groß- und Kleinschreibung, sowie ohne Punktuation angegeben:

     dieregeldesheiligenbenediktvorwortzurheiligenregel
     1höremeinsohnaufdielehredesmeistersneigedasohrdein
     esherzensnimmdiemahnungdesgütigenvaterswilliganund
     erfüllesiedurchdietat2sowirstdudurchdiemühedesgeho
     rsamszudemzurückkehrenvondemdudichinderträgheitdes
     ungehorsamsentfernthast

Dies entspricht der frühmittelalterlichen Minuskelschrift. Die Lesbarkeit ist sehr schlecht. Das würde noch verstärkt, wenn man die Ziffern wegließe, die die Verse im Text angeben.

Wenn durch Beschädigung des Mediums Textteile fehlen, ergibt sich etwa folgendes Bild:

         egeldesheiligenbenediktvorwortzurheiligenr
        remeinsohnaufdielehredesmeistersneigedasohrd
      sherzensnimmdiemahnungdesgütigenvaterswilliganund
     erfüllesiedurchdietat2sowirstdudurchdiemühedesgeho
      samszudemzurückkehrenvondemdudichinderträghei
         horsamsentfernthast

Man erkennt deutlich die Zerstörung von Textstruktur und Verständlichkeit durch die Fehlstellen. Solche Fehlstellen sind bei alten Dokumenten typisch.

Es folgt nun die Darstellung des selben Textes, nun aber unter Verwendung von Groß- und Kleinschreibung, Trennzeichen, Zwischenräumen und Zeilenvorschüben. Das entspricht Texten, die mit einer Schreibmaschine geschrieben wurden.

     Die Regel des heiligen Benedikt.
     Vorwort zur heiligen Regel:
     1 Höre mein Sohn auf die Lehren des Meisters, neige das Ohr
     deines Herzens, nimm die Mahnung des gütigen Vaters willig an
     und erfülle sie durch die Tat.
     2 So wirst du durch die Mühe des Gehorsams zu dem zurück-
     kehren, von dem du dich in der Trägheit des Ungehorsams ent-
     fernt hast. 

Nun ist die Lesbarkeit für den Menschen bereits sehr gut, auch wenn keine unterschiedliche Formatierung von Titel, laufendem Text, usw. verwendet wurde.

Nimmt man nun ähnliche Fehlstellen an wie im ersten Beispiel:

     Die Regel des heiligen Be
       rwort zur heiligen Regel:
        öre mein Sohn auf die Lehren des Meisters, neige das Ohr
     deines Herzens, nimm die Mahnung des gütigen Vaters will
     und erfülle sie durch die Tat.
     2 So wirst du durch die Mühe des Gehorsams zu dem zur
     kehren, von dem du dich in der Trägheit des Ungehors
     fernt hast. 

so sind deren Auswirkungen weit geringer. Es können aber Strukturmerkmale verlorengehen, etwa, wo der beschädigte Titel endet und der laufende Text beginnt.

Schließlich werden zusätzlich Tags (Markierungen) für Titel, Abschnitte und Absätze eingeführt, wie das in XML-Notation möglich ist. Dadurch erhält das Dokument eine deutliche Struktur.

     <text>    
     <titel>Die Regel des heiligen Benedikt</titel>
     <subtitel>Vorwort zur heiligen Regel:</subtitel>
     <inhalt>
     <para>1 Höre mein Sohn auf die Lehren des Meisters, neige das
     Ohr deines Herzens, nimm die Mahnung des gütigen Vaters willig
     an und erfülle sie durch die Tat.</para>
     <para>2 So wirst du durch die Mühe des Gehorsams zu dem
     zurückkehren, von dem du dich in der Trägheit des Ungehorsams
     entfernt hast.</para>
     </inhalt>
     </text>

Die eingefügten Tags erschweren durch zusätzliche Redundanz die Lesbarkeit durch den Menschen etwas. Jedoch zeigt der Text mit Fehlstellen eine wesentlich verbesserte Rekonstruierbarkeit.

     <text>    
       ie Regel des heiligen Benedikt</titel>
     <subtitel>Vorwort zur heiligen Reg
     <inhalt>
     <para>1 Höre mein Sohn auf die Lehren des Meisters, neige das
     Ohr deines Herzens, nimm die Mahnung des gütigen Vaters willig
     an und erfülle sie durch die Tat.</para>
     <para>2 So wirst du durch die Mühe des Gehorsams zu dem
     zurückkehren, von dem du dich in der Trägheit des Ungehorsams
     entfernt ha
     </inhalt>
     </text>

Die Struktur kann, im Wesentlichen auf Grund der symmetrischen Anfangs- und Ende-Tags, vollständig rekonstruiert werden. Nur wenige fehlende Buchstaben bleiben verloren und müssen auf Grund des Kontextes ergänzt werden.

Im Beispiel wurde keinerlei Bezug auf Plattform, Betriebssystem und ev. Anwendungsprogramme genommen. XML benötigt, wie reiner ASCII-Text keine zusätzlichen Sonderzeichen. Ich meine, dass obiges Beispiel deutlich zeigt, wie man mit einfachen Mitteln die Lesbarkeit und Rekonstruierbarkeit von Dokumenten auch nach sehr langer Zeit und nach mehr oder weniger starken Beschädigungen deutlich verbessern kann.

5. Zusammenfassung

Ausgehend von historischen Methoden der langfristigen Bewahrung von Dokumenten habe ich die Geschichte der Textverarbeitung beschrieben und bin anschließend auf verschiedene Gefährdungsszenarios eingegangen. Davon wurden Anforderungen an technologische und organisatorische Maßnahmen zur langfristigen Bewahrung von Informationen abgeleitet. Abschließend wurde der vielversprechende Einsatz von XML für die Realisierung besprochen.

Das Thema ist aber so vielschichtig, dass es in einem einzelnen Artikel nicht vollständig behandelt werden kann. Es sollte daher vor allem das Problembewusstsein geschärft werden und Hinweise für mögliche Ansätze zum weiteren Vorgehen angeboten werden.

Ich meine aber, dass es auch in unserer so schnelllebigen Zeit wichtig ist, sich zu überlegen, was es wert ist für eine - vielleicht ferne - Zukunft aufgehoben zu werden.

6. Literatur

/1/ Amery C.
Der Untergang der Stadt Passau
Heyne Bücher 3461, 1992

/2/ Benedikt v. Nursia
Die Regel des heiligen Benedikt
Beuroner Kunstverlag

/3/ Laireiter B.
Vergleich statischer und dynamischer Webseiten
Diplomarbeit Universität Salzburg 2001

/4/ McDowell N.
Data Stored in Multiplying Bacteria
New Scientist Online 8. Jan. 2003

/5/ Risak V.
Langfristige Wissensspeicherung gestern und heute
OCG-kommunikativ, 5/2000

/6/ UNESCO
Memory of the World
http://portal.unesco.org/

/7/ W3C
World Wide Web Consortium
http://www.w3.org/

/8/ Unicode Consortium
http://www.unicode.org/

/9/ The Longnow Project
http://www.longnow.org

/10/ The Rosetta Project
http://www.rosettaproject.org/

/11/ Internet Archive Wayback Machine
http://www.archive.org

/12/ MOM (Monasterium-Web)
http://www.monasterium.web


Fußnoten

1 Es ist auch möglich, Texte - ohne logisch explizite Struktur - als reinen Text zu speichern. Das erfordert die geringsten Voraussetzungen vom künftigen Leser, hat aber schwerwiegende Nachteile für die Rekonstruktion nach Fehlern.
Von einer Speicherung im PDF- oder DOC-, ... Format wird dringend abgeraten. Die Voraussetzungen zum Lesen, bzw. an die entsprechende Software sind - für wirklich langfristige Speicherung - zu hoch.

2 Diese Informationen sind langfristig seit Milliarden Jahren stabil (z.B. urtümliche Einzeller, ...). Die seltenen Änderungen werden als Mutationen bezeichnet. Die genetische Biologie beschäftigt sich - heute mit massiver Computerunterstützung - mit der Entschlüsselung dieser "Texte". Die Änderungshistorie dieser Texte ist in der Evolution der Arten festgeschrieben.

3 Nicht immer ist damit ein Aufbewahren "für alle Ewigkeit" gemeint. Kunstwerke an Wohnhäusern sind im allgemeinen nur auf die Dauer des Bestandes dieser Häuser gedacht.
In einem Science Fiction Roman wurde eine abgeschlossene unbegrenzt stabile Gesellschaft beschrieben. Dort haben (in einer kleinen Nebenbemerkung) einige Kunstwerke eine Art "Ablaufdatum", ab dem sie nicht mehr gepflegt werden und verfallen; andere werden hingegen auf Dauer erhalten.

4 Arbeitsspeicher normaler PC verfügen heute über eine Kapazität von bis zu 4 GB, Platten bis zu 1 TB, CDs 650 MB, DVD 4,7 GB.
Dies reicht von der Kapazität her für alle Ansprüche, insbesondere für Texte mit statischen Bildern.

5 So können heute die Magnetbänder der NASA von den Besuchen von Raumsonden am Mond (um 1968) einerseits wegen der nunmehr schlechten Aufzeichnungsqualität (Demagnetisierung) der Magnetbänder und andererseits wegen der nicht mehr gegebenen Verfügbarkeit der veralteten Magnetbandgeräte nicht mehr gelesen werden. Auch die Qualität alter Filme leidet durch chemische Langzeiteinflüsse stark mit der Zeit.

6 Viele wichtige Informationen sind auf sog. "Spiegelservern" oder in der "Cloud" mehrfach gespeichert, die automatisch synchronisiert werden. Dies dient vor allem dem schnelleren Zugriff, kann aber auch bei Informationsverlust helfen.

7 Diese Verdrängung erfolgte im Widerspruch zu früheren Erwartungen nie vollständig. Das papierlose Büro blieb ebenso eine Utopie wie das Zeitunglesen vom Bildschirm. Auch die elektronischen Bücher setzten sich aus verschiedenen Gründen bisher nicht voll durch, auf die hier nicht eingegangen werden kann. Jedoch werden in den letzten Jahren für Smart Phones und Tablet-Computer neue Anwendungsprogramme ("apps") für das papierlose Lesen angeboten.

8 Das militärische Vorgängersystem DARPA-Internet wurde ab 1969 im kalten Krieg entwickelt, um nach einem Atomschlag nicht die gesamte Informationsstruktur zu verlieren.

9 Diese Wiederherstellung ist schwierig, da ja auch die Programme dieser Infrastruktur neu geladen werden müssen. Auch diese Programme sind aber auf relativ kurzlebigen Datenträgern gespeichert.
Man versuche einmal, auf einem neuen völlig leeren Rechner DOS 3 neu einzurichten. Dieses alte Betriebssystem existiert meist nur mehr auf veralteten 5,25" Disketten, die mit neueren Laufwerken nicht mehr gelesen werden können. Falls man ein solches Laufwerk noch auftreibt, wird man mit hoher Wahrscheinlichkeit (wegen der teilweisen Entmagnetisierung der Datenträger) Fehlermeldungen wie "Lesefehler" erhalten.
Teilweise gibt es Emulatoren für veraltete Rechner (z.B. Commodore, Amiga) oder veraltete Betriebssysteme (DOSEMU und WINE in Linux, ...)

10 Das bekannteste Beispiel für solche Rekonstruktion sind Bibeltexte. Da die Quellen - durch nichtsynchronisierte Änderungen - nicht identisch sind, sind Entscheidungen darüber nötig, was in das rekonstruierte Dokument als gültig aufgenommen werden soll.
Dieses Problem tritt auch im WWW massiv auf, wo gleiche Inhalte - zur Verringerung von Übertragungskosten und wegen der im Fehlerfall nützlichen Redundanz - auf verschiedenen Servern liegen. Die Versionskontrolle und das Synchronisieren nach Änderungen ist eine organisatorisch und technisch schwierige Aufgabe. Hier helfen, wie schon erwähnt, Meta-Informationen, z.B. mit Angabe des Erstellungsdatums.
Auch die Entschlüsselung des menschlichen Genoms erfolgte mit im Prinzip ähnlichen Methoden.

11 Liegt das Programm nur in Binärform vor, so ist meist eine Korrektur unmöglich. Dass die Korrektur aus Gründen des Copyrights verboten sein kann, ist für wirklich langfristige Speicherung bedeutungslos.
Liegt das Programm zugleich im Source-Code vor (wie bei der sog. GNU-Lizenz verpflichtend), so ist die Rekonstruktion durch den auch für Menschen lesbaren Text viel einfacher.

12 Diese Meta-Information im Kopfteil der Seite könnte die Stabilität z.B. als "absolute", "high", "low", "no" angeben.
Für das vorliegende Dokument könnte das wie folgt notiert werden:

<meta name="stability" content="high"/>

also als hohe Stabilität; nach Veröffentlichung könnte diese auf "absolute" gesetzt werden.

13 Das Rosetta Projekt hat das Ziel, alle (ca. 6.000) bekannten Sprachen für mindestens 2000 Jahre lesbar zu bewahren. Es verwendet eine analoge Speicherung auf microgeätzten Nickel-Scheiben, die jeweils ca. 30.000 Textseiten enthalten werden. Diese Scheiben können mit Mikroskopen (1000-fache Vergrößerung) gelesen, bzw. in digitale Form eingescannt werden.