Teil1

Transcrição

Teil1
tr.0105.082-088 13.12.2004 9:49 Uhr ©Seite 82
82 FOKUS
Nie wuchs die weltweite Informationsflut so rasch
wie heute; allein im Jahr 2002 wurden pro Kopf der
Erdbevölkerung rund 800 Megabyte neue Daten produziert. Und nie drohte das gesammelte Wissen so
schnell wieder unzugänglich zu werden wie im Zeitalter der digitalen Speicherung. Computerexperten
tüfteln deshalb an Techniken, um die Lesbarkeit von
Dateien zu verlängern und das Internet zu einem riesigen Datenarchiv auszubauen. Gleichzeitig perfektionieren Archivare die Kunst, wertvolle Originalpapiere
vor dem Zerfall zu retten. Darüber hinaus sorgen
sie für die Langzeiterinnerung an unsere Kultur: In
einer alten Silbermine werden derzeit Mikrofilme mit
Zeugnissen der deutschen Geistesgeschichte eingebunkert – garantierte Mindestlebensdauer: 500 Jahre.
+
Wider das globale Vergessen
Papier zerfällt, Disketten und CDs lassen sich nicht mehr öffnen, sobald die Technik
überholt ist. Noch ist unklar, wie die Menschheit ihr Wissen für Jahrtausende sichern
kann. Doch die Arbeit an unterschiedlichsten Rettungsstrategien läuft auf Hochtouren
VON NILS SCHIFFHAUER
W
er seine Examensarbeit Anfang der 1980er
schrieb, sitzt heute vor einer 5 1/4-Zoll-Diskette, für die der Handel kein Laufwerk mehr
anbietet. Ist sie noch in Wordstar unter dem Betriebssystem CP/M geschrieben, sind nach zwanzig Jahren nur
noch die ausgedruckten Exemplare lesbar.
Und das ist nur ein leises Echo all dessen, was insgesamt an wissenschaftlichen Daten gefährdet oder gar
verloren ist. Zwar lesen wir 5000 Jahre alte Keilschriften, Caesars „De bello Gallico“ und Kolumbus’ Bordbuch. „Aber der Inhalt von 1,2 Millionen Magnetbändern,
die drei Jahrzehnte amerikanische Raumfahrt dokumentieren, ist hinüber“, sagt Michael Friedewald vom
Fraunhofer-Institut für Systemtechnik und Innovationsforschung in Karlsruhe. Teils hat sich die Folie zersetzt,
teils haben sich einige Stellen auf der Spule magnetisch
auf andere Abschnitte übertragen und verursachen beim
Auslesen Datenmüll.
Die langfristige Überlieferung von Daten ist nur gesichert, wenn ihr materieller Träger – Buch, Mikrofilm oder
Diskette – überlebt, man diesen technisch lesen kann und
den Inhalt auch versteht. So haben die Tontafeln zwar
Jahrtausende unbeschadet überstanden, ihre Entzifferung begann aber erst 1802 durch den Sprachwissenschaftler Georg Friedrich Grotefend. Auch Hieroglyphen,
die auf Stein, Papyrus und Pergament überdauern,
konnte man mehr als 1500 Jahre lang nicht lesen, ehe
1822 der Franzose Jean-François Champollion das Rätsel löste: Der „Stein von Rosetta“ mit seiner zweisprachigen und in drei Alphabeten notierten Parallelfassung
eines Erlasses vom Jahr 196ˇv. ˇChr. war der Schlüssel.
Die digitale Revolution wiederum brachte an allen
für die Langzeitarchivierung kritischen Stellen bis heute
ungelöste Probleme mit sich. So traut Michael Friedewald
den aus Polycarbonat, Aluminium und Lack gefertigten
CDs kaum eine längere Lebensdauer als zehn Jahre
FOKUS DATEN FÜR DIE EWIGKEIT
+
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.
tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 83
+
+
ALBERT EXERGIAN
Die digitale Revolution brachte an allen für dieLangzeitarchivierung kritischen Stellen ungelöste
Probleme mit sich. So wird die Lebensdauer von CDs auf kaum mehr als zehn Jahre geschätzt
FOKUS 83
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.
+
tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 84
zu. Noch gibt es CD-Player, aber selbst für die letzten
3,5-Zoll-Versionen der 1971 von IBM vorgestellten 8Zoll-Disketten verschwinden die Abspielgeräte. Und hat
man sie, lassen sich viele Dokumente nicht mehr oder
nur mit Mühe öffnen. Was nicht nur ein Problem verflossener Programme wie Wordstar oder Betriebssysteme
wie CP/M ist. „National Geographic“ etwa digitalisierte
1997 die 108 Jahrgänge seines Magazins und brachte
die CDs für umgerechnet 200 Euro auf den Markt.
Wenige Jahre später sind sie auf einem Rechner mit
Windows ME, 2000 oder XP nicht mehr lesbar. Man
möge nunmehr die für XP eingerichtete 5. Auflage erwerben – für 170 Euro, lautet die Auskunft des Verlages.
Flüchtige Informationen
„Digitale Daten halten ewig oder für fünf Jahre. Je nachdem, was zuerst eintritt“, ätzte Jeff Rothenberg von der
Rand-Corporation, einem amerikanischen Think Tank,
schon 1995. Die Menge elektronisch erstellter und
wenigstens kurzzeitig verfügbarer Informationen ist seitdem explodiert. 25ˇTerabyte neuer Informationen fischen beispielsweise die Software-Agenten des InternetArchivgründers Brewster Kahle monatlich aus dem Netz
und speichern sie (siehe Artikel Seite 92). Der Inhalt
einer Lastwagenladung voller Bücher – das sind 200
Exemplare von Shakespeares kompletter Werkausgabe
– entspricht rund einem Gigabyte. 25 600 dieser Lastwagenladungen werden also monatlich neu in Kahles
Internet-Archiv gestellt. Leicht flüchtige Information, die
+
Fast alle zwischen 1845 und
1985 erschienen Bücher sind
auf „saurem Papier“ gedruckt,
das mit der Zeit brüchig wird
+
nicht einmal fünf Jahre hält – geschweige denn ewig.
Gewagt scheint mithin der Versuch, Bücher allein deshalb zu digitalisieren, um sie der Nachwelt zu erhalten.
Doch auch Bücher selbst haben ihre Schicksale.
„Fast alle zwischen etwa 1845 und 1985 erschienenen
Bücher sind auf so genanntem sauren Papier gedruckt,
das im Laufe der Zeit brüchig wird“, sagt Manfred
Anders. Der promovierte Chemiker leitet das Zentrum für
Bucherhaltung in Leipzig. Vorsichtig klappt er einen
Pappdeckel auf, aus dem ein nur noch fragmentarisch
erhaltenes Zeitungsblatt aus den Jahren um 1900 braun
herausrieselt: „80 Millionen Bücher aus diesem Zeitraum
stehen allein in deutschen Bibliotheken, 20 Millionen
sind Unikate, wovon zwei Millionen wegen des Zerfalls
schon nicht mehr nutzbar sind.“
Ihr Papier wird von innen heraus zerstört. Dieser
Prozess ist die Kehrseite der Massenproduktion preiswerten Papiers. 1807 stellte Moritz Friedrich Illig seine
„sichere, einfache und wohlfeile Art, Papier in der Masse
zu leimen“ vor. Für den Zusammenhalt sorgte nicht
mehr der aus tierischen Häuten und Knorpeln gekochte
Klebstoff, der die Hadern- und Lumpenfasern an der
Oberfläche zu einer Einheit verband, sondern eine
Harzleimung im Papier selbst. Seit 1845 wird Papier
aus Holzschliff hergestellt. Die Verklebung erfolgt,
indem mit Kaliumaluminiumsulfat (Alaun) Alkaliseifen
von Baumharz als Leim an den Fasern ausgefällt
werden. Das Papier weist einen pH-Wert von etwa 4,5
auf, ähnlich wie saure Milch. In Kombination mit Feuchtigkeit, Wärme, Licht und Luftschadstoffen zerfressen
Säurereste das Material deshalb von innen. „Dieser
unerbittliche Prozess ist autokatalytisch – das heißt, er
beschleunigt sich von selbst“, erläutert Manfred Anders.
Künstliche Wiederbelebung
Die Zersetzung kann jedoch durch Entsäuerung gestoppt werden. Ist ein Buch nicht schon zu zermürbt,
steht es danach den Benutzern wieder zur Verfügung.
Zur Massenentsäuerung großer Bestände wurde unter
anderem von der Battelle Ingenieurtechnik GmbH in
Eschborn eine Anlage zur maschinellen Entsäuerung
entwickelt. Abgerechnet wird nach Gewicht. Ein Buch
zu entsäuern kostet zwischen 10 und 20 Euro. Geld,
das Bibliotheken nicht haben. „Dabei verlängert eine
Entsäuerung die verbleibende Nutzungsdauer eines
Buches um das Fünffache“, sagt Anders. Wer jetzt
spare, nehme entweder den unvermeidbaren Buchverlust in Kauf oder verteuere eine Restaurierung.
Die ist bei fortgeschrittener Brüchigkeit auch nach dem
Entsäuern notwendig, weil der Säureentzug die Papierfestigkeit nur unwesentlich verbessert. Dazu bedient
man sich der knapp zweieinhalb Jahrhunderte alten
Kunst der Papierspaltung. Der Trick dabei: Vorder- und
Rückseite eines Papierbogens werden vorsichtig auseinander gezogen und anschließend mit einem haltbaren, ungeleimten Zellulosepapier in der Mitte wieder zu
+
ESJOTTES/VON ROTWEIN
Die Jahrtausende lange Geschichte der Datenüberlieferung
ca. 40 000 v. Chr. Graffitis werden auf
Felswände geritzt und gemalt. Diese altsteinzeitlichen Zeichen sind die ältesten
bewusst erstellten Übermittlungen, die bis
heute überdauert haben.
ca. 3000 v. Chr. Die Ägypter erfinden den
Papyrus. Sie schneiden das entrindete Stengelmark der gleichnamigen Staude in feinste
Streifen, die in zwei Lagen zu Bögen und Rollen gepresst werden.
ca. 3000 v. Chr. Mit dem Schilfgriffel drücken
Mesopotamier ganze Archive in Keilschrift auf
Tontafeln, die gebrannt beinahe ewig haltbar
sind. Aus dieser Technik erwächst eine Wortund Silbenschrift.
ca. 200 v. Chr. Mit Pergament entsteht in Ägypten eine weniger vornehme Konkurrenz zum Papyrus. Das Material besteht aus geglätteter Tierhaut
und ist ein haltbarer Stoff zum Bedrucken und –
mehrfachen – Beschreiben.
+
FOKUS DATEN FÜR DIE EWIGKEIT
84 FOKUS
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.
tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 85
Verfilmung und Digitalisierung von Schriftstücken haben den Vorteil, dass sich der Inhalt des
Originals auf diese Weise vervielfältigen lässt. Zudem sparen die Bibliotheken dadurch Platz
FOKUS 85
einem festen Bogen zusammengeklebt. 1990 entwickelte Wolfgang Wächter in der Deutschen Bücherei
in Leipzig für den Prozess eine Maschine, die seit sieben Jahren einsatzfähig ist und bis zu 4000 Blatt täglich
spaltet. „Mit dieser Anlage spalten wir sogar Zigarettenpapier“, sagt Manfred Anders (siehe Grafik Seite 90).
Umstrittenes Allheilmittel
Angesichts solcher langwierigen und nicht billigen
Methoden scheint es verheißungsvoll, Papier durch Verfilmung oder Digitalisierung der Schriftstücke überflüssig zu machen. Beide Arten des Papierersatzes haben
den Vorteil, dass sich der wesentliche Inhalt des Originals
auf diese Weise vervielfältigen lässt. Zudem können
sich Bibliothekare damit ihrer Platzprobleme entledigen.
Doch was zunächst wie ein pragmatisches Allheilmittel
klingt, rief bereits Kritiker auf den Plan. Der amerikanische Schriftsteller Nicholson Baker unterstellt den Bibliotheken gar „einen Anschlag auf das Papier“, den diese
wissentlich und aus Bequemlichkeit begingen. „So hat
beispielsweise die New York Public Library ihren
Bestand der Zeitschrift ‚World‘ 1951 komplett verfilmt
und sich von den Papierausgaben getrennt“, schreibt
Baker. Bei dieser holzschnittartigen Schwarzweiß-Verfilmung gingen wesentliche Teile des reich und farbig
illustrierten Originals verloren, moniert der Autor.
Nur ausgewählte Kostbarkeiten werden mit so
großer Sorgfalt digital faksimiliert wie 1999 eine um
1454 entstandene Gutenberg-Bibel. „Um das Buch zu
bearbeiten, haben wir Verfahren eingesetzt, die gewährleisten, dass die Bilddaten auch den Ansprüchen künftiger Generationen standhalten“, sagt Martin Liebetruth
vom Göttinger Digitalisierungszentrum: Die Bibel wurde
auf eine so genannte Buchwippe gelegt, auf der sie sich
schonend aufklappen ließ, um jede ihrer 1282 Seiten
mit einer Spezialkamera in einer Auflösung von 8000
mal 9700 Pixel zu fotografieren. Ein Laser half, die Seite
horizontal wie vertikal optimal zu positionieren. Unterdruck
sorgte dafür, dass das Pergamentblatt auf einer Gaze
völlig plan auflag. Das im Mac nachgeschaltete Farbmanagement „Colorblind“ garantierte schließlich die
absolute Übereinstimmung mit dem Original.
„Dieser Tage können Sie im Internet sehen, wie sich
die Technik seitdem entwickelt hat“, sagt Jürgen Albert,
der in Würzburg Informatik lehrt und unter dessen Regie
die 330 Seiten der 1544 von Lorenz Fries vollendeten
„Chronik der Bischöfe von Würzburg“ mit einer Auflösung
von 600 dpi zu insgesamt 260 Gigabyte Daten digitalisiert wurden. Das Faksimile der Handschrift ist mit seiner Transkription sowohl ins Frühneuhochdeutsche als
auch ins Hochdeutsche überblendbar. Dass die Faksimiles als Texturen für 3D-Modelle der Seiten genutzt
werden, die sich dann wie richtige Seiten am Bildschirm
umblättern lassen, ist Spielerei. Wichtiger ist hingegen,
dass der gesamte Buchinhalt nun nach beliebigen
Begriffen fehlertolerant durchsuchbar ist.
+
Mit Spezialmaschinen lassen
sich bis zu 4000 Blatt Papier
täglich spalten und mit einer
Zelluloseschicht stabilisieren
+
Der Text ist von den Handschriften abgetippt worden
– eine von zwei Methoden, eine Papiervorlage in
maschinenlesbare Buchstaben zu verwandeln, die man
nach Belieben gezielt durchsuchen, kopieren, speichern
und elektronisch verschicken kann. Anfangs gab es zum
simplen Abtippen keine Alternative. Doch allmählich wird
die Handarbeit immer mehr durch die automatische Zeichenerkennung (OCR) verdrängt. Lediglich bei schlechten Vorlagen oder handgeschriebenen Texten wie dem
aus Würzburg ist die manuelle Bearbeitung weiterhin
unerlässlich (siehe Grafik Seite 88).
Doppelt hält besser
„Beim Abtippen unterscheiden wir Double- und Triplekeying“, erläutert Tobias Ott von der Pagina GmbH in Tübingen, die beispielsweise die neun eng bedruckten Mammutbände „Lexikon des Mittelalters“ mit ihren knapp
10 000 Seiten digitalisiert hat. Dabei werde der Text von
zwei oder eben von drei verschiedenen Gruppen abgeschrieben. Gegenüber einer Fehlerrate von 98 Prozent
beim einmaligen Abschreiben steigert ein Vergleich und
eine – oftmals automatische – Korrektur der zwei oder
drei unterschiedlich erfassten Vorlagen die Fehlerrate „auf
garantierte 99,998 Prozent“, wie Ott sagt.
98 Prozent klingen wenig, wären aber beinahe hundert Fehler auf einer komplett mit Text gefüllten Seite von
„Technology Review“; bei 99,998 Prozent ist lediglich
ein einziges Zeichen auf zehn Seiten fehlerhaft. „Einen
nur einmal abgeschriebenen Text Korrektur lesen zu
+
196 v. Chr. Stein von Rosetta, 1799 entdeckter Basaltstein, in den ein Dekret in
Hieroglyphen sowie auf Griechisch und
Ägyptisch geritzt wurde. Ermöglicht ab
1822 die Entzifferung der Hieroglyphen.
105 Papierherstellung aus Baumrinde, Hanf
und Lumpen durch Tsai-Lun in China. Ab
175 werden Texte von Steintafeln auf Papier
abgezogen und so im Abklatschverfahren
vervielfältigt.
868 In China wird die Diamant-Sutra mit
Holzplatten auf Papier gedruckt. Die 1907
in der Provinz Gansu geborgene und 5,30
Meter lange Schriftrolle gilt als ältestes
gedrucktes Buch.
ca. 1040 Druck mit beweglichen
Lettern durch den Arbeiter Bi Sheng
in China, der Keramikstempel auf
einer Eisenform mit Wachs zu einem
„Seitenspiegel“ fixiert.
+
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.
tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 86
lassen, ist kostspieliger als die Doppelt- oder Dreifacherfassung“, sagt Ott. Abtippen könne jeder, zur Kontrolle sei jedoch „verstehendes Lesen“ durch einen
wesentlich teureren Experten notwendig.
Grimm’sches Großprojekt
Schon vor drei Jahren zeigte ein Team um den Trierer
Germanistikprofessor Kurt Gärtner mit der Digitalisierung des Deutschen Wörterbuches der Brüder Grimm,
wie ein groß angelegtes Digitalisierungsprojekt vonstatten gehen kann: Zwei Gruppen von jeweils zwanzig Chinesen doublekeyten die 300 Millionen Zeichen für 60
Cent zu je 1000 Anschlägen. Mit aus der Kryptographie
entliehenen Methoden durchsuchten dann selbst entwickelte Softwareagenten die beiden Word-Fassungen
+
Um dasWörterbuch der Brüder
Grimm zu digitalisieren, tippten
zwei Teams von je 20 Chinesen
die 300 Millionen Zeichen ab
+
nach Fehlern. Dieses Textmassiv strukturierten die Trierer anschließend mit einer Kombination von Software
und manuellen Eingriffen. Sie orientierten sich dabei am
allseits anerkannten Standard SGML/XML und zeichneten die einzelnen Sinneinheiten wie Stichwort, Zitat
und Verweise nach der unter Bibliotheken üblichen Konvention aus. In eine Datenbank umgesetzt, kann der
Leser nun über einen Browser Fragen an das Wörterbuch
richten („Wie oft wird Goethe, wie oft Hitler als Quelle
angeführt?“), die aus den 32 Buchbänden kaum jemals
präzise zu beantworten wären – und schon gar nicht in
Sekundenschnelle (67 196-mal wird der Dichterfürst,
114-mal der Diktator benannt).
Niemand in Deutschland bringt digitalisiertes Kulturgut so verschwenderisch unter die Leute wie die Digitale
Bibliothek des Directmedia-Verlages, der 1997 mit
seinem Bestseller „Deutsche Literatur von Lessing bis
Kafka“ – 160 000 Seiten von über 100 Autoren – die
heute größte CD-ROM-Reihe im deutschen Sprachraum
begründete. Sie demokratisiert seitdem Literatur und
Nachschlagewerke, die als Buch gekauft rund 100 000
Euro kosten – statt 4630 Euro auf Silberlingen; und über
200ˇRegalmeter füllen würden – statt 1,5. 95ˇProzent
Rabatt bietet kein Discounter. Die Berliner digitalisieren
Vorlagen sowohl durch Abschreiben, wie etwa bei den
150 000 Karteikarten der „Stiftung Archiv der Parteien und
Massenorganisationen der DDR“, als auch durch automatische Zeichenerkennung (OCR).
Daneben gibt es noch kleinere Unternehmen, die
ebenfalls per OCR digitalisierte Literatur verfügbar
machen. Oftmals treibt sie ein inhaltliches Interesse. So
verlegt Karsten Worm vor allem Philosophen wie Kant,
Fichte, Pascal, Leibniz und Platon in philologisch peinlich genau edierten Ausgaben. Mit der faksimilierten,
transkribierten und übersetzten Ausgabe der um 1615
erschienenen „Neuen Chronik“ hat der Berliner zum ersten Mal einen zentralen und zum Weltkulturerbe gezählten, reich illustrierten Text über das Leben der Inkas
und die kolonialen Ungerechtigkeiten der Spanier auf
CD gebrannt. Der „Verlag Olga Benario und Herbert
Baum“ bietet die auf Papier schwer verdauliche 13-bändige Ausgabe „Stalin – Werke“ OCR-digitalisiert auf CD
an. Und auch die 200 000 Seiten der österreichischen
„Arbeiter-Zeitung“ von 1945 bis 1989 sollen in absehbarer
Zeit digitalisiert werden. „Wegen ihres wechselnden Layouts sind Zeitungen allerdings schwieriger automatisch
umzusetzen“, sagt Andy Kaltenbrunner. Der Wiener
Medienberater schätzt die Kosten für die OCR-Erfassung der bereits faksimilierten Zeitung auf bis zu 400 000
Euro, bei einer Fehlerquote von zwei bis drei Prozent.
Kein Gesamtkonzept
Ein Vergleich dieser privaten und öffentlichen Projekte
macht ein generelles Dilemma der Digitalisierung sichtbar: Zwar arbeitet jedes Unternehmen und jede Institution für sich genommen weit gehend konsistent, doch sind
die erfassten Inhalte selbst bei den fast hundert von der
Deutschen Forschungsgemeinschaft (DFG) geförderten
Digitalisierungsprojekten oft nur über verschiedene
Abfragemasken zugänglich. Mit dem Programm der
„Digitalen Bibliothek“ etwa kann man lediglich auf die
dort erschienenen Werke zurückgreifen, aber zum Beispiel nicht auf das Grimm’sche Wörterbuch.
Die DFG hat dieses Defizit erkannt: „1997 haben wir
begonnen, derartige Projekte mit fünf bis sechs Millionen
Euro jährlich zu fördern“, sagt Jürgen Bunzel, der dort
für Digitalisierung zuständig ist. „Bis 2003 mussten wir
die Techniken der Digitalisierung und die Präsentation
im Internet erproben. Im zweiten Schritt geht es nun um
eine nationale Digitalisierungsstrategie.“ Zudem verfolgt
ESJOTTES/VON ROTWEIN
+
1454 Johannes Gutenberg erfindet in
Europa den Buchdruck mit beweglichen
Lettern. Er stellt dabei die Metalllettern
hoch präzise her, indem er sie in einem
der frühesten Automaten gießt.
1845 Das „saure“ Holzschliffpapier von
Friedrich Gottlob Keller ermöglicht die
industrielle Produktion preiswerten Papiers.
Es zersetzt sich jedoch leicht und zerfällt
nach einigen Jahrzehnten.
1898 Magnetaufzeichnung von Schall auf
Stahldraht durch Valdemar Poulsen. Er
erfindet damit den Vorläufer von Tonband,
Festplatte und Diskette, die später auch
digitale Daten speichern.
1986 SGML wird in der ISO-Norm 8897 als
abstrakte Sprache zur inhaltlichen Auszeichnung und Strukturierung elektronischer Texte
festgelegt; sie bildet die Basis für HTML und
XML heutiger Digitalisierungsprojekte.
+
FOKUS DATEN FÜR DIE EWIGKEIT
86 FOKUS
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.
tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 87
die DFG das Ziel, Archivbestände, die selten oder in
schlechtem Zustand seien, im Internet zugänglich zu
machen, und zwar kostenlos. Die renommierte Digitalisierungsfirma Chadwyck-Healey berechnet dagegen für
den ganzen Goethe auf CD mehr als 7500 Euro.
Als Stand der Technik zur Datenablage gilt der XMLStandard, der die in ASCII-Zeichen umgesetzten Inhalte
durch Metadaten strukturiert. Damit ist für die Ausgabe
nicht nur eine bis zur Identität reichende Annäherung an
das Original möglich. Je nach Erkenntnisinteresse lässt
sich das Material auch beliebig neu zusammenstellen,
wie es etwa das Grimm’sche Wörterbuch zeigt: Seine Einträge kann man auch in der umgekehrten Schreibweise
– wie von rechts nach links buchstabiert – aufrufen,
wodurch das größte Lexikon für Endreime entsteht.
Doch wie lange wird es diesen Standard noch
geben? „Sicherlich noch 10 bis 15 Jahre“, schätzt Informatikprofessor Jürgen Albert. Diese für Archivare
erschreckend kurze Zeit macht sichtbar, wie fragil auch
Werke sind, die mit ihrer Digitalisierung scheinbar im
Hafen der Ewigkeit anlegen konnten. Raymond Lorie
vom IBM Almaden Forschungszentrum schlägt daher
einen Universellen Virtuellen Computer (UVC) vor:
„Hierbei wird eine zum Beispiel mit XML strukturierte
Datei zusammen mit einem speziell für den UVC geschriebenen Programm gespeichert. Der Charme für die
zukünftige Lesbarkeit der Datei liegt darin, dass man
dann für dieses UVC-Programm nur noch eine Art Übersetzer benötigt, den wir Emulator nennen.“ Der UVC sei
ein schlichter, aber kompletter Computer. Seine Emulationsprogramme müssen zwar kontinuierlich auf dem
Stand der zukünftigen Software, Betriebssysteme und
Datenformate gehalten werden. Das sei aber wegen
seiner einfachen Architektur leicht zu bewerkstelligen, sagt
Lorie. „Die archivierten Daten werden deshalb über
lange Zeit zugänglich bleiben.“
te über Jahrtausende zu retten. Eine moderne Variante
dieser altertümlichen Informationsspeicher stellt das so
genannte Rosetta-Projekt der „Long Now Foundation“ dar.
Es basiert auf einer von Norsam Technologies in Hillsboro, Oregon, entwickelten Technologie: Auf eine Nickelschicht von fünf Quadratzentimeter Fläche lassen sich
fast 200 000 A4-Seiten als unter dem Elektronenmikroskop lesbares Faksimile eingravieren. Diese Flaschenpost auf Siliziumträger ist selbst nach 24 Stunden bei Temperaturen von 300 Grad Celsius, wie sie bei einem Brand
auftreten können, noch lesbar. Neben Plünderungen ist
Feuer der größte Feind von Archiven, ihm fielen schon
48ˇv.ˇChr. Teile der auf etwa 900 000 geschätzten
Schriftrollen der Bibliothek von Alexandria zum Opfer.
Fehlende Liebe
Derzeit sammeln knapp 2000 Freiwillige Texte, die auf
die Rosetta-Scheibe geprägt werden sollen. Allein das
Wörterbuch umfasst rund 400 000 Begriffe in 1400 Sprachen. Doch was empfiehlt ein Archäologe wie der an der
belgischen Universität Leuven lehrende Joachim Bretschneider heutigen Archivaren, damit sich die Altertumsforscher des Jahres 5000 n.ˇChr. ein exaktes Bild unserer Kultur machen können? „Da fragt man sich als Erstes,
ob die Menschen dann noch lesen können“, sagt Bretschneider. „Ein Bildwörterbuch in Englisch wäre eine
Basis zur Entzifferung weiterer Texte.“ Auch feuerfeste,
mit Keilschrift geritzte Tontäfelchen wie die aus Babylonien oder Persien, die sich schon über ihre ersten fünf
+
Botschaft für die Nachwelt: Auf
eine winzige nickelüberzogene
Tafel sollen beinahe 200 000
Seiten Text eingraviert werden
+
Moderne Keilschrift
Bleibt noch die physikalische Speicherung der Daten.
Hierfür hat sich weltweit die regelmäßige automatische
Sicherung von zwei bis drei Kopien auf DVD, CD oder
Bandkassetten bewährt – wenn diese an verschiedenen Orten gelagert und zyklisch auf neue Datenträger
umkopiert werden, wie es beispielsweise gängige Praxis bei den ungefähr 34 Millionen Versicherungsverläufen der Bundesanstalt für Angestellte ist.
Demgegenüber erfordern Papyrus, Pergament und
Tontafeln keinen regelmäßigen Aufwand, um ihre Inhal-
T
SCHRIFT
TEAR
EX
OL
HN
REVIE
W
1995 DVD (Digital Video Disc), digitale
Aufzeichnung durch eingebrannte Vertiefungen auf eine Scheibe von 12 Zentimetern Durchmesser und 1,2 Millimeter
Dicke; Kapazität: 4,7 bis 17 Gigabyte.
TE
C
1989 Das World Wide Web entsteht auf Grundlage des Internets und erweitert sich rasch vom
Kommunikationsmedium zur virtuellen Bibliothek
nie gekannten Ausmaßes – allein Google sucht
in mehr als acht Milliarden Seiten.
Jahrtausende erhalten haben, findet er gut: „Nur über
die Liebe erfahren wir in den antiken Tafeln leider nichts.“
Noch gibt es weltweit keine einheitlichen Strategien,
das heutige Wissen über lange Zeiträume zu erhalten,
weder auf technischer noch auf inhaltlicher Ebene. Möglicherweise reduziert eine Antwort auf die Frage: „Was
ist wirklich wichtig?“ das vorhandene Material ja so
enorm, dass der Rest in der Art moderner Keilschrift
auf Tafeln eingraviert werden kann. Dieses Mal aber
sollte die Liebe mit dabei sein. y
TE
JOT
ES
Derzeit sammeln 2000 Freiwillige Texte, die auf die Rosetta-Scheibe der Long Now Foundation
geprägt werden sollen. Allein das Wörterbuch umfasst 400 000 Begriffe in 1400 Sprachen
FOKUS 87
1998 Das Rosetta Project der Long Now
Foundation will auf Nickel Texte in 1000
Sprachen als Mikrobilder gravieren, die
heutige Sprachen als Übersetzungshilfe in
die ferne Zukunft retten sollen.
+
2000 Universeller Virtueller Computer (UVC),ein Vorschlag von Raymond
Lorie (IBM), um das „digitale Erbe“
unabhängig von bestimmter Software und Hardware zu archivieren.
+
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.
tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 88
88 FOKUS
Mit Spezialsoftware lässt sich selbst schwer lesbarer Text maschinell digitalisieren
Frakturschrift – wie sie etwa für den
Titel der „Frankfurter Allgemeinen
Zeitung“ verwendet wird – ist knifflig
zu entziffern. Besondere Schwierigkeiten mit dem altertümlich anmutenden Schriftsatz hat die optische
und automatische Zeichenerkennung, kurz: OCR (Optical Character Recognition). Die Buchstaben f
und s etwa sind für sie auf den ersten Blick nicht voneinander zu
unterscheiden. Auch Ligaturen lassen sich schwer einlesen. Ligaturen
verbinden zwei Buchstaben zu
einer neuen Zeicheneinheit, beispielsweise a und e zu æ.
Immerhin konnte das Berliner Digitalisierungsunternehmen Directmedia die 20 Bände von Meyers Großem Konversations-Lexikon trotz
Fraktur weit gehend automatisch in
maschinenlesbaren Text umsetzen.
Beim kleineren Schriftbild der gut 50
Jahre früher gedruckten 19 Bände
von „Pierer’s Universal-Lexikon“ dagegen stieß OCR-Software bislang
an ihre Grenzen. Bis März 2005 soll
der Pierer nun jedoch ebenfalls auf
Silberscheibe glänzen,mit höchstens
zwei Fehlern auf 10 000 Zeichen.
Basis für die Umsetzung sind Digitalfotos der Seiten, die mit 400 dpi
Auflösung gescannt wurden. „Ein
Buchstabe besteht dann aus etwa 45
Pixeln“, erläutert Erwin Jurschitza,
Mit-Geschäftsführer von Directmedia. „Die Illustrationen setzen wir
manuell in das Layout ein.“ Danach
muss die Software auf den verwendeten Schriftsatz trainiert werden.
Da zu diesem nicht nur Groß- und
Kleinbuchstaben, sondern auch Ligaturen, Zeichen und Zahlen gehören, erhält Jurschitza am Ende etwa
100 Glyphen genannte Muster.
Im Software-Training werden nun
die Grenzen gesetzt. Wann ist ein
Zeichen ein „c“, wann ein „e“? Aus
den vielen Erscheinungsformen
eines jeden Zeichens wird ein Mittelwert gebildet, der mit einer wählbaren Toleranz das gescannte Bild
dem jeweils passenden Buchstaben
zuweist. „Damit ist ein schneller PC
fünf Minuten pro Seite ausgelastet“,
sagt Jurschitza. „Wir lassen diesen
Prozess bei uns im Netz deshalb
nach Feierabend vornehmen.“
Trotz lernfähiger Automatismen ist
die menschliche Fähigkeit, Muster
zu erkennen – die Kombination von
Auge und mitdenkendem Gehirn –,
bisher unübertroffen. Und so sammeln sich am Ende auf dem Monitor
nach Zeichen geordnete Zweifelsfälle, die ein Korrektor überfliegt und
entscheidet, ob es sich etwa bei
dem Zeichen „1“ um den Buchstaben
„L“ oder die Ziffer „Eins“ handelt.
Dank der bereits digitalisierten
Texte kann Directmedia auf über
drei Millionen Wortformen zurückgreifen, was zudem elektronische
Plausibilitätskontrollen ermöglicht:
Wenn es da keinen „Dampfschiss“
gibt, kreuzt wohl eher ein „Dampfschiff“ durchs Frakturmeer.
Erst der Meyer, dann der Pierer.
Was kommt als Nächstes? „Der
Zedler“, sagt Jurschitza. Die zwischen 1732 und 1754 erschienen
68 Bände des „Großen vollständigen Universal-Lexicons aller Wissenschaften und Künste“ wurden
von der Bayerischen Staatsbibliothek bisher nur als Faksimile ins
Netz gestellt. Eine Volltexterfassung
dieser Masse von 68 000 in eng gesetzter Fraktur bedruckten Seiten
sei „nicht finanzierbar“, vermutet
die Bibliotheksmitarbeiterin Marianne Dörr. Jurschitzas Team aber
will das schaffen. Dass der Reprint
heute sogar mit Sonderpreis 16 200
Euro kostet, macht die Sache nur
interessanter. NILS SCHIFFHAUER
+
+
Automatische Zeichenerkennung
Beim OCR-Verfahren werden Schriftstücke elektronisch erfasst. Nacheinander trennt das Programm Bilder und Textblöcke, danach Zeilen
und Spalten und schließlich einzelne Wörter sowie Buchstaben. Diese
werden dann in einen Zahlencode umgewandelt.
Textblock
Bild
Textblock
ESJOTTES/VON ROTWEIN
Doublekeying
Die nahezu originalgetreue Nachbildung der Seite samt Schriftbild
wird durch zwei Verfahren ermöglicht: Beim Musterverfahren werden die erkannten Pixelmuster mit
katalogisierten Zeichen verglichen;
bei der Merkmalsentnahme werden die Pixel zusätzlich noch mit
geometrischen Elementen wie
Kreisen oder Winkeln abgeglichen.
Musterverfahren
MerkmalsentEingesetzt wird schließlich das
(Pattern Matching) nahme (Feature
Zeichen, das die meisten ÜberExtraction)
einstimmungen besitzt.
1
011 00
111 010 01
110 011 111 001
001 1111 01110 1010 11011 11
0 11 011 01 001 11
1 11 111 10 011
1 10 110 11
1 10 101
1 11
0
1
011 00
111 110 01
110 011 111 001
001 1111 01110 1010 11011 11
0 11 011 01 001 11
1 11 111 10 011
1 10 110 11
1 11 101
1 11
0
+
114
Beim Double- oder
Triplekeying tippen
zwei oder drei Gruppen
von Personen den Text
ab. Anschließend
werden die erfassten
Daten verglichen und
bei Abweichungen
voneinander korrigiert.
Die Fehlerrate dieses
Verfahrens liegt
bei 0,002 Prozent.
145
ASCII; HTML; XML
CD-ROM
DVD
Cartridge
Internet
+
FOKUS DATEN FÜR DIE EWIGKEIT
Vom Bild zum Bit
TECHNOLOGY REVIEW Januar 2005
© Copyright
by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.