Langfristige Wissensspeicherung gestern und heute?

V. Risak

risak@aon.at
Stand vom 14. 11. 2006
Wir können heute noch die Zinsenrechnung der alten Sumerer von Keilschrifttafeln lesen; werden unsere WWW-Texte (oder kaufmännischen Texte) auf CD/FP in 20 Jahren noch lesbar sein?
Wissen ist wertvoll und soll nicht verlorengehen. Im Gegensatz zu früherer nur für menschliches Lesen gedachten Speicherung, wird nun der größte Teil des Wissens auf Medien gespeichert, die vom Menschen nicht unmittelbar lesbar sind. Dies bringt einerseits den Vorteil weltweiten unmittelbaren Zugriffs (im WWW).Andererseits führt die - relative - Kurzlebigkeit dieser Medien und die Abhängigkeit von Werkzeugen (PC+SW...) zur Gefahr, dass Wissen endgültig verloren geht.

Diese Situation besteht ca. seit 1960 und verschärft sich durch das WWW zusehends.

Im vorliegenden Artikel möchte ich zunächst auf die möglichen Gefahren für den Fortbestand des Wissens eingehen; anschließend werde ich auf mögliche Gegenstrategien eingehen.

Problemstellung

Wissen ist wertvoll und soll nicht verlorengehen. Der Beginn des überindividuellen dauerhaften Festhaltens von Wissen durch Bilder, Zeichen, Schrift ... kann mit dem Beginn der (geschriebenen) Geschichte gleichgesetzt werden. Es waren zunächst - aufgrund der teuren Materialien und des mühevollen Schreibens - nur wesentliche Inhalte, die es wert waren, langfristig festgehalten zu werden. Beispiele sind: Mit der Erfindung des Buchdruckes, der Schreibmaschine, von Kopiergeräten schwoll die Menge der gedruckten, bzw. geschriebenen Texte stark an. Die räumliche Archivierung von Texten, aber auch das Indizieren von Büchern durch Menschen erforderte immer größeren, immer schwerer möglichen Aufwand.

Der Breiteneinsatz zuerst von zentralen Großrechnern (ab ca. 1960) und später (1985) von PC bot die völlig neue Möglichkeit, von der (alleinigen) Speicherung auf Papier abzugehen. Nun wurde zunehmend das magnetische Abbild zum Original, das nach Bedarf gedruckt werden konnte. Dies wurde inzwischen auch im rechtlichen Sinne anerkannt.

Die verteilte Speicherung von unüberschaubar vielen Informationen im WWW ist der derzeitige Höhepunkt.Diese Entwicklung erlaubte einerseits den viel schnelleren und schließlich weltweiten Zugriff auf Informationen, jedoch um den Preis, dass die auf digitalen Speichermedien gespeicherten Informationen nicht mehr direkt durch Menschen lesbar sind. Man benötigt nun zum Lesen, bzw. Schreiben vermittelnde Werkzeuge: Fehlt eine dieser Komponenten, so ist die Information nicht mehr zugreifbar; also de facto verloren, da der Mensch mit seinen Sinnen die magnetisch/optisch gespeicherte Information - auch mit Mikroskopen, ... - nicht lesen kann.Die UNESCO schätzte im Projekt "Memory of the World" einerseits die zu sichernden Datenmengen (incl. Papierdokumente) ab. Anschließend wurden die möglichen Datenträger hinsichtlich der Dauer ihrer sicheren Lesbarkeit untersucht. Diese lag zwischen einigen Jahren bei magnetischen Datenträgern und 10-15 Jahren für CD-ROM. Es ergab sich ein gigantischer maschineller und organisatorischer Aufwand zur Erstsicherung und zum regelmäigen Kopieren. Das führte auch zur Frage, welche Dokumente überhaupt, als einfacher Text, bzw. als Faksimile zu speichern sind.Diese Entscheidung ist extrem schwierig, weil man dazu ja wissen müsste, welche Dokumente irgendwann in der Zukunft von welcher Bedeutung sein werden. Zwei Beispiele mögen dies erläutern:

Ostarrichi-Urkunde

Die 1000 Jahre alte "Ostarrichi-Urkunde" enthält die ersten Nennung des Namens "Ostarrichi" (= Österreich). Sie ist damit ein wesentliches Dokument zum staatlichen Selbstverständnis Österreichs.

Sachlich handelt es sich dabei um eine ganz normale Schenkungsurkunde über Ländereien, die vor 1000 Jahren ausgestellt wurde. Sie war vermutlich eine von vielen, ähnlichen Urkunden, von denen aber alle bis auf diese eine verlorengingen.

Wer hätte damals diese, über den Anlassfall hinausgehende, Bedeutung vorhersehen können?

Gebrauchsanleitung eines Taschenradios

Jeder von uns kennt die in mehreren Sprachen verfassten Gebrauchsanleitungen elektronischer Geräte. Meist wundert man sich über die extrem schlechte Sprachqualität der Übersetzungen.

Wir kennen aber auch die Bedeutung des Steins von Rosette. Drei parallele Texte führten zur Entschlüsselung der Hieroglyphen.

Wenn alle mehrsprachigen Dokumente verlorengingen, könnte unsere mehrsprachige Gebrauchsanleitung die selbe Rolle übernehmen.

Aber wer würde dieses triviale Dokument als erhaltenswert im Rahmen des "Memory of the World" ansehen?

Lösungsansätze

Um Informationen langfristig zu sichern und lesbar zu erhalten, muss

Sichern der Daten

Der Bestand der Daten kann sichergestellt werden.

Statische Datensicherung

Die Daten werden einmal in dauerhaftes Material eingebracht.Das geschah in der frühen Geschichte durch Einkerben von Zeichen in Tontäfelchen ("Keilschrift"), die sich über Jahrtausende erhalten haben.Später wurde als Basis Papier und Pergament verwendet, auf das die Zeichen mit haltbarer Tinte und Farbe geschrieben oder gezeichnet wurden. Hiebei muss auf die langfristige Haltbarkeit des Trägermaterials (Papier) und der Tinte, bzw. Farbe geachtet werden.Heute können Metalloberflächen, Glas, Silizium verwendet werden. Die Halbleitertechnologie bietet die notwendigen Voraussetzungen dafür. Bei materialgerechter Lagerung können diese Datenträger über Jahrtausende erhalten und die Zeichen erkennbar bleiben.

Sogenannte "Zeitkapseln" wurden als "Flaschenpost an die Zukunft" auf solche Weise hergestellt, dicht verschlossen und vergraben oder - wie die Voyager-Sonde - in den Weltraum geschossen.Der Aufwand für die Ersterstellung und sichere Lagerung ist sehr hoch. Danach ist keinerlei menschliche Aktivität mehr notwendig, bis die Datenträger wieder zum Lesen geholt werden. D.h. die Daten bleiben ohne jedes Zutun von Menschen oder Automaten sicher erhalten. Auch wenn die Datenträger vergessen und erst nach langer Zeit wieder aufgefunden werden (wie die Tontäfelchen), hat das auf die Haltbarkeit keinen Einfluss.

Dynamische Datensicherung

Das ist der heutige Stand der Technik der Archivierung von Daten.

Die Daten werden auf mehr oder weniger dauerhafte Datenträger aufgebracht und in regelmäßigen Zeitabständen immer wieder kopiert. Der Zeitabstand hängt von den Datenträgern ab und bewegt sich im Rahmen von einem Jahr (magnetische Datenträger) bis zu 10 Jahren (CD-ROM).

Für langfristige Datensicherung ist dabei eine digitale Speicherung unverzichtbar, da beim digitalen Kopieren kein Informationsverlust auftritt. Analoge Medien (Xerokopien, analoge Magnetbänder, ...) verlieren demgegenüber bei jedem Kopiervorgang deutlich an Qualität.Der organisatorische und laufende Aufwand ist (vgl. die Untersuchungen im Projekt "Memory of the World") so groß, dass diese Sicherung nur einen kleinen Bruchteil unersetzlicher Dokumente erfassen kann.Noch entscheidender ist aber die Forderung, dass diese Kette von Kopiervorgängen nie unterbrocher werden darf. Ist das der Fall, so sind die Daten endgültig verloren.Die aktive Sicherung muss also für die gesamte Dauer der Archivierung gesichert sein.

Sichern der Nutzbarkeit

Der Mensch kann Informationen nur nutzen, wenn die Daten vorhanden sind und er diese lesen und dann auch verstehen kann. Wenn man nun voraussetzt, dass die Daten verfügbar sind, gibt es zwei Wege zum Lesen durch den Menschen:

Unmittelbar lesbare Daten

sind solche, die der Mensch mit seinen Sinnesorganen, ev. mit "vergrößernden" Hilfsmitteln unmittelbar erkennen kann. Günstig ist es, wenn diese Daten auch von Rechnern unmittelbar gelesen werden können. Das ist z.B. mit Scannern möglich. Das Long Now Projekt verwendet hier mikroskopisch kleine Schrift auf dauerhaftem Trägermaterial, die mit den Mitteln der Halbleitertechnologie aufgebracht wird.

Mit Werkzeugen lesbare Daten

Hier sind die Daten vom Menschen nicht unmittelbar lesbar; er benötigt Hilfsmittel, wie Lese-Hardware, Rechner, Betriebssysteme, Textverarbeitungs-Software, ...Das führt zu Problemen, wenn diese Hilfsmittel eine geringere "Lebensdauer" haben, als die Daten nutzbar sein sollen.Für kürzere Zeit (etwa 10 Jahre) kann man für Ersatzteile und Reservedatenträger sorgen und die benötigten Programme mit den Daten gemeinsam speichern. Das ist aber ein seltener Ausnahmefall. Die heutigen Office-Pakete verwenden in der Regel zwar weitverbreitete, aber firmenspezifische Speicherformate, die sich im Laufe der fast jährlich erfolgenden Versionswechsel teilweise ändern. Diese Speicherformate sind für andere Textverarbeitungs-Programme schwer oder nur teilweise; für Menschen fast gar nicht lesbar. Die Aufwärtskompatibilität ist meist nur für 1-2 Versionen gesichert; d.h. aber, dass z.B. 5-6 Jahre alte Texte nicht mehr lesbar sind.

Standardisierte Speicherung

Auch den großen Herstellern wurde, bzw. wird dieses Problem zunehmend bewusst. Es werden Standards definiert, die u.a. folgende Eigenschaften haben:

Einfacher Zeichensatz

Ein einfacher Zeichensatz (z.B. die 127 Zeichen eines 7-Bit-Codes) ist auch ohne oder mit geringer weiterer Kenntnis der Sprache von Fachleuten entschlüsselbar. Man denke an die Entschlüsselung der Hieroglyphen aufgrund von Textvergleichen durch den Stein von Rosette.

Ein einfacher Zeichensatz ist auch leichter in mikroskopisch kleiner Schrift speicherbar.

Nationale Schriften und Sonderzeichen

Man sollte immer prüfen, ob der sachliche Inhalt, die sprachlichen Details oder auch die Präsentation eines Dokumentes entscheidend sind. Zur Präsentation gehören auch die Verwendung nationaler Schriftzeichen, die zwar teilweise im international vereinbarten Unicode darstellbar sind, aber (dieser Code muss bekannt sein) höhere Anforderungen an den Leser und Interpreten stellen.

Wenn es nur um die sachlichen Inhalte geht, sollte, wie bei Kongress-Proceedings, überlegt werden, ob nicht eine Standardsprache möglich und sinnvoll ist. Früher war das Latein, heute ist es Englisch.

Formatierungscodes im Grundzeichensatz ausdrückbar

Wenn, wie in Office-Paketen, herstellerabhängige Codes für die Darstellung der logischen Strukturierung und der Formatierung verwendet werden, kann dazu die ganze Breite der vorhandenen Zeichen verwendet werden. Außerdem können die inhaltliche Information und die zur logischen Strukturierung und zur Präsentation notwendige Information beliebig ineinander verschachtelt werden, was das Lesen des Quellcodes des Dokuments durch den Menschen fast unmöglich macht. Dies wird noch dadurch verschärft, wenn diese Darstellungscodes firmenintern vertraulich sind.Sogenannte Mark-up Sprachen stellen diese Informationen durch im Text eingestreute Tags dar, z.B. in spitzen Klammern eingeschlossen. Auch nationale Sonderzeichen können auf ähnliche Weise codiert werden. Entscheidend ist dabei, dass nur der von jedem Zeicheneditor schreib- und lesbare Grundzeichensatz verwendet wird.

Klare Trennung von Inhalt, Struktur und Präsentation

Auf diese Weise können die inhaltlichen Informationen von den Zusatzinformationen zur Strukturierung und insbesondere der detaillierten Darstellung sauber getrennt werden. Diese Informationen können einerseits als Vorspann des Dokumentes, und andererseits als getrennte Dateien gespeichert werden.

Im ersten Fall ist alle zur Darstellung notwendige Information mit dem Dokument selbst vereinigt; wird dieses nur für sich allein gefunden, so kann es vollständig gelesen werden.

Im anderen Fall kann die Einheitlichkeit vieler Dokumente leichter sichergestellt werden.Es besteht bei Office-Paketen die beginnende Tendenz, von proprietären Codierungen abzugehen und an ihrer Stelle standardisierte Codes - wie SGML, HTML oder XML zu verwenden.

Lesbarkeit durch den Menschen

Auch wenn ein zwischengeschaltetes Werkzeug (Editor) notwendig ist, sollten daran so wenig als möglich Voraussetzungen gebunden werden. Wie schon erwähnt kann man das prüfen, indem man den gespeicherten Text mit einem einfachen Texteditor zu lesen versucht. Geht man einen Schritt weiter zurück, so kann man mikroskopisch kleine Texte mit einem geeeigneten Mikroskop auch direkt lesen.

Verschlüsselung vermeiden

Es besteht ein Spannungsverhältnis zwischen der Notwendigkeit, manche wichtigen Dokumente zu verschlüsseln, und der Sicherstellung langfristiger Lesbarkeit. Es ist nicht anzunehmen, dass über Rechner- und Software-Generationen hinweg die entsprechenden Entschlüsselungsalgorithmen und die dazugehörenden Schlüssel erhalten bleiben. Da die Notwendigkeit zur Geheimhaltung mit der Zeit abnimmt, sollte man langfristig auf Verschlüsselung verzichten.

Zusammenfassung

Die Herausforderungen an die Sicherung wertvollen Kulturgutes, von Wissen, haben sich durch die Einführung der Informationsverarbeitung und Speicherung; mehr noch durch die globale Vernetzung, grundsätzlich geändert.

Mögliche Gefahren und Gegenmaßnahmen wurden dargestellt. Auf einige interessente Projekte der "Long Now Foundation" und der UNESCO wurde hingewiesen. Diese sind sicherlich nur erste Schritte, können aber das Bewusstsein für die Erhaltung der Informationskultur in der Informationsgesellschaft schärfen.

Literatur und URLs

[BRA99]
Brand S.

The Clock of the Long Now

Basic Books 1999[KNU83]

Knuth D.

Sonderheft 25 Jahre ACM, darin Text "Computer-Archaeology".

K: Knuth übertrug die von den Sprachwissenschaftern übersetzten Keilschrifttexte in ALGOL 68. Es handelt sich um einen Zinseszinsalgorithmus, der nur für 25 Prozent Zinsen funktioniert.

CACM 26 (1983) 1 [MEMxx]

UNESCO
Memory of the World[LNF00]

The Long Now Foundation

http://www.longnow.org/

Fussnoten

* Man nahm zunächst an, dass nun das papierlose Büro das Ausdrucken und Speichern von Dokumenten auf Papier unnötig machen würde, da ja die Informationen auf magnetischen Datenträgern, später auf CD-ROM jederzeit verfügbar wären. Diese Erwartung erfüllte sich in der Praxis nicht.

* Der "Stein von Rosette" enthält einen Text zur Krönung von Ptolemäus V. Er stammt aus der Zeit um 200 v.Chr. in drei Alphabeten (Hieroglyphen, Demotisch und Griechisch). Dadurch wurde es möglich, die Hieroglyphen-Schrift zu entschlüsseln. Der eigentliche Text war demgegenüber gar nicht so wichtig.

* Pergament und Papier können - bei richtiger Lagerung und Zusammensetzung - sehr dauerhaft sein. Moderne Papiere sind oft für den schnellen Verbrauch (Zeitungen, Bücher) gedacht und zerfallen nach einigen Jahrzehnten.* Heutige Tinten verblassen oft schnell, die mit Wachs gebundene Farbe von Laserdruckern löst sich vom Papier ...

* Das Projekt der Long Now Foundation umfasst auch eine für 10.000 Jahre konzipierte Bibliothek. Als Trägermaterial werden hochpolierte Nickelscheiben verwendet, auf die mit den Mitteln der Halbleitertechnologie Buchstaben (einige um groß) aufgetragen werden, die mittels Microscanner automatisch oder mittels Mikroskop direkt gelesen werden können.

* Die Magnetbänder früher Apollo-Expeditionen können nicht mehr gelesen werden. Das hat auch mit der nicht mehr gegebenen Verfügbarkeit von Lesegeräten zu tun.

* Solche "vergrößernden" Hilfsmittel sind für den Gesichtssinn Mikroskope, Lupen, spezielle kontrasterhöhende Beleuchtung, für den Gehörsinn Mikrophone, Filter, Verstärker, ...

* So kann man z.B. bei Prozessrechnern in entlegenen Gegenden vorgehen, um eine längerfristige Wartung zu ermöglichen.

* Man kann dies leicht selbst feststellen, wenn man einen kurzen Text mit einem dieser Textverarbeitungsprogramme schreibt, abspeichert und anschließend mit einem Texteditor zu lesen versucht.

* Dabei sind einfache Fonts ohne Verzierungen, Serifen, ... vorzuziehen; z.B. "Helvetica".

* Der Unicode ist ein international genormter Zeichencode, der zwei Byte für jedes Zeichen verwendet. Dadurch sind 65536 verschiedene Zeichen darstellbar; während die 1 Byte-Codierungen nur 256 verschiedene Zeichen erlauben.

* Man versuche z.B. einmal einen Brief in Winword (Microsoft), in HTML oder als reinen Text zu schreiben und anschließend den erzeugten Code mit einem Zeicheneditor (also mit geringsten Voraussetzungen an Hintergrundinformation) zu lesen.* Solche Mark-up Sprachen sind u.a. SGML und die davon abgeleiteten Sprachen HTML und XML.