Teil1
Transcrição
Teil1
tr.0105.082-088 13.12.2004 9:49 Uhr ©Seite 82 82 FOKUS Nie wuchs die weltweite Informationsflut so rasch wie heute; allein im Jahr 2002 wurden pro Kopf der Erdbevölkerung rund 800 Megabyte neue Daten produziert. Und nie drohte das gesammelte Wissen so schnell wieder unzugänglich zu werden wie im Zeitalter der digitalen Speicherung. Computerexperten tüfteln deshalb an Techniken, um die Lesbarkeit von Dateien zu verlängern und das Internet zu einem riesigen Datenarchiv auszubauen. Gleichzeitig perfektionieren Archivare die Kunst, wertvolle Originalpapiere vor dem Zerfall zu retten. Darüber hinaus sorgen sie für die Langzeiterinnerung an unsere Kultur: In einer alten Silbermine werden derzeit Mikrofilme mit Zeugnissen der deutschen Geistesgeschichte eingebunkert – garantierte Mindestlebensdauer: 500 Jahre. + Wider das globale Vergessen Papier zerfällt, Disketten und CDs lassen sich nicht mehr öffnen, sobald die Technik überholt ist. Noch ist unklar, wie die Menschheit ihr Wissen für Jahrtausende sichern kann. Doch die Arbeit an unterschiedlichsten Rettungsstrategien läuft auf Hochtouren VON NILS SCHIFFHAUER W er seine Examensarbeit Anfang der 1980er schrieb, sitzt heute vor einer 5 1/4-Zoll-Diskette, für die der Handel kein Laufwerk mehr anbietet. Ist sie noch in Wordstar unter dem Betriebssystem CP/M geschrieben, sind nach zwanzig Jahren nur noch die ausgedruckten Exemplare lesbar. Und das ist nur ein leises Echo all dessen, was insgesamt an wissenschaftlichen Daten gefährdet oder gar verloren ist. Zwar lesen wir 5000 Jahre alte Keilschriften, Caesars „De bello Gallico“ und Kolumbus’ Bordbuch. „Aber der Inhalt von 1,2 Millionen Magnetbändern, die drei Jahrzehnte amerikanische Raumfahrt dokumentieren, ist hinüber“, sagt Michael Friedewald vom Fraunhofer-Institut für Systemtechnik und Innovationsforschung in Karlsruhe. Teils hat sich die Folie zersetzt, teils haben sich einige Stellen auf der Spule magnetisch auf andere Abschnitte übertragen und verursachen beim Auslesen Datenmüll. Die langfristige Überlieferung von Daten ist nur gesichert, wenn ihr materieller Träger – Buch, Mikrofilm oder Diskette – überlebt, man diesen technisch lesen kann und den Inhalt auch versteht. So haben die Tontafeln zwar Jahrtausende unbeschadet überstanden, ihre Entzifferung begann aber erst 1802 durch den Sprachwissenschaftler Georg Friedrich Grotefend. Auch Hieroglyphen, die auf Stein, Papyrus und Pergament überdauern, konnte man mehr als 1500 Jahre lang nicht lesen, ehe 1822 der Franzose Jean-François Champollion das Rätsel löste: Der „Stein von Rosetta“ mit seiner zweisprachigen und in drei Alphabeten notierten Parallelfassung eines Erlasses vom Jahr 196ˇv. ˇChr. war der Schlüssel. Die digitale Revolution wiederum brachte an allen für die Langzeitarchivierung kritischen Stellen bis heute ungelöste Probleme mit sich. So traut Michael Friedewald den aus Polycarbonat, Aluminium und Lack gefertigten CDs kaum eine längere Lebensdauer als zehn Jahre FOKUS DATEN FÜR DIE EWIGKEIT + TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags. tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 83 + + ALBERT EXERGIAN Die digitale Revolution brachte an allen für dieLangzeitarchivierung kritischen Stellen ungelöste Probleme mit sich. So wird die Lebensdauer von CDs auf kaum mehr als zehn Jahre geschätzt FOKUS 83 TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags. + tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 84 zu. Noch gibt es CD-Player, aber selbst für die letzten 3,5-Zoll-Versionen der 1971 von IBM vorgestellten 8Zoll-Disketten verschwinden die Abspielgeräte. Und hat man sie, lassen sich viele Dokumente nicht mehr oder nur mit Mühe öffnen. Was nicht nur ein Problem verflossener Programme wie Wordstar oder Betriebssysteme wie CP/M ist. „National Geographic“ etwa digitalisierte 1997 die 108 Jahrgänge seines Magazins und brachte die CDs für umgerechnet 200 Euro auf den Markt. Wenige Jahre später sind sie auf einem Rechner mit Windows ME, 2000 oder XP nicht mehr lesbar. Man möge nunmehr die für XP eingerichtete 5. Auflage erwerben – für 170 Euro, lautet die Auskunft des Verlages. Flüchtige Informationen „Digitale Daten halten ewig oder für fünf Jahre. Je nachdem, was zuerst eintritt“, ätzte Jeff Rothenberg von der Rand-Corporation, einem amerikanischen Think Tank, schon 1995. Die Menge elektronisch erstellter und wenigstens kurzzeitig verfügbarer Informationen ist seitdem explodiert. 25ˇTerabyte neuer Informationen fischen beispielsweise die Software-Agenten des InternetArchivgründers Brewster Kahle monatlich aus dem Netz und speichern sie (siehe Artikel Seite 92). Der Inhalt einer Lastwagenladung voller Bücher – das sind 200 Exemplare von Shakespeares kompletter Werkausgabe – entspricht rund einem Gigabyte. 25 600 dieser Lastwagenladungen werden also monatlich neu in Kahles Internet-Archiv gestellt. Leicht flüchtige Information, die + Fast alle zwischen 1845 und 1985 erschienen Bücher sind auf „saurem Papier“ gedruckt, das mit der Zeit brüchig wird + nicht einmal fünf Jahre hält – geschweige denn ewig. Gewagt scheint mithin der Versuch, Bücher allein deshalb zu digitalisieren, um sie der Nachwelt zu erhalten. Doch auch Bücher selbst haben ihre Schicksale. „Fast alle zwischen etwa 1845 und 1985 erschienenen Bücher sind auf so genanntem sauren Papier gedruckt, das im Laufe der Zeit brüchig wird“, sagt Manfred Anders. Der promovierte Chemiker leitet das Zentrum für Bucherhaltung in Leipzig. Vorsichtig klappt er einen Pappdeckel auf, aus dem ein nur noch fragmentarisch erhaltenes Zeitungsblatt aus den Jahren um 1900 braun herausrieselt: „80 Millionen Bücher aus diesem Zeitraum stehen allein in deutschen Bibliotheken, 20 Millionen sind Unikate, wovon zwei Millionen wegen des Zerfalls schon nicht mehr nutzbar sind.“ Ihr Papier wird von innen heraus zerstört. Dieser Prozess ist die Kehrseite der Massenproduktion preiswerten Papiers. 1807 stellte Moritz Friedrich Illig seine „sichere, einfache und wohlfeile Art, Papier in der Masse zu leimen“ vor. Für den Zusammenhalt sorgte nicht mehr der aus tierischen Häuten und Knorpeln gekochte Klebstoff, der die Hadern- und Lumpenfasern an der Oberfläche zu einer Einheit verband, sondern eine Harzleimung im Papier selbst. Seit 1845 wird Papier aus Holzschliff hergestellt. Die Verklebung erfolgt, indem mit Kaliumaluminiumsulfat (Alaun) Alkaliseifen von Baumharz als Leim an den Fasern ausgefällt werden. Das Papier weist einen pH-Wert von etwa 4,5 auf, ähnlich wie saure Milch. In Kombination mit Feuchtigkeit, Wärme, Licht und Luftschadstoffen zerfressen Säurereste das Material deshalb von innen. „Dieser unerbittliche Prozess ist autokatalytisch – das heißt, er beschleunigt sich von selbst“, erläutert Manfred Anders. Künstliche Wiederbelebung Die Zersetzung kann jedoch durch Entsäuerung gestoppt werden. Ist ein Buch nicht schon zu zermürbt, steht es danach den Benutzern wieder zur Verfügung. Zur Massenentsäuerung großer Bestände wurde unter anderem von der Battelle Ingenieurtechnik GmbH in Eschborn eine Anlage zur maschinellen Entsäuerung entwickelt. Abgerechnet wird nach Gewicht. Ein Buch zu entsäuern kostet zwischen 10 und 20 Euro. Geld, das Bibliotheken nicht haben. „Dabei verlängert eine Entsäuerung die verbleibende Nutzungsdauer eines Buches um das Fünffache“, sagt Anders. Wer jetzt spare, nehme entweder den unvermeidbaren Buchverlust in Kauf oder verteuere eine Restaurierung. Die ist bei fortgeschrittener Brüchigkeit auch nach dem Entsäuern notwendig, weil der Säureentzug die Papierfestigkeit nur unwesentlich verbessert. Dazu bedient man sich der knapp zweieinhalb Jahrhunderte alten Kunst der Papierspaltung. Der Trick dabei: Vorder- und Rückseite eines Papierbogens werden vorsichtig auseinander gezogen und anschließend mit einem haltbaren, ungeleimten Zellulosepapier in der Mitte wieder zu + ESJOTTES/VON ROTWEIN Die Jahrtausende lange Geschichte der Datenüberlieferung ca. 40 000 v. Chr. Graffitis werden auf Felswände geritzt und gemalt. Diese altsteinzeitlichen Zeichen sind die ältesten bewusst erstellten Übermittlungen, die bis heute überdauert haben. ca. 3000 v. Chr. Die Ägypter erfinden den Papyrus. Sie schneiden das entrindete Stengelmark der gleichnamigen Staude in feinste Streifen, die in zwei Lagen zu Bögen und Rollen gepresst werden. ca. 3000 v. Chr. Mit dem Schilfgriffel drücken Mesopotamier ganze Archive in Keilschrift auf Tontafeln, die gebrannt beinahe ewig haltbar sind. Aus dieser Technik erwächst eine Wortund Silbenschrift. ca. 200 v. Chr. Mit Pergament entsteht in Ägypten eine weniger vornehme Konkurrenz zum Papyrus. Das Material besteht aus geglätteter Tierhaut und ist ein haltbarer Stoff zum Bedrucken und – mehrfachen – Beschreiben. + FOKUS DATEN FÜR DIE EWIGKEIT 84 FOKUS TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags. tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 85 Verfilmung und Digitalisierung von Schriftstücken haben den Vorteil, dass sich der Inhalt des Originals auf diese Weise vervielfältigen lässt. Zudem sparen die Bibliotheken dadurch Platz FOKUS 85 einem festen Bogen zusammengeklebt. 1990 entwickelte Wolfgang Wächter in der Deutschen Bücherei in Leipzig für den Prozess eine Maschine, die seit sieben Jahren einsatzfähig ist und bis zu 4000 Blatt täglich spaltet. „Mit dieser Anlage spalten wir sogar Zigarettenpapier“, sagt Manfred Anders (siehe Grafik Seite 90). Umstrittenes Allheilmittel Angesichts solcher langwierigen und nicht billigen Methoden scheint es verheißungsvoll, Papier durch Verfilmung oder Digitalisierung der Schriftstücke überflüssig zu machen. Beide Arten des Papierersatzes haben den Vorteil, dass sich der wesentliche Inhalt des Originals auf diese Weise vervielfältigen lässt. Zudem können sich Bibliothekare damit ihrer Platzprobleme entledigen. Doch was zunächst wie ein pragmatisches Allheilmittel klingt, rief bereits Kritiker auf den Plan. Der amerikanische Schriftsteller Nicholson Baker unterstellt den Bibliotheken gar „einen Anschlag auf das Papier“, den diese wissentlich und aus Bequemlichkeit begingen. „So hat beispielsweise die New York Public Library ihren Bestand der Zeitschrift ‚World‘ 1951 komplett verfilmt und sich von den Papierausgaben getrennt“, schreibt Baker. Bei dieser holzschnittartigen Schwarzweiß-Verfilmung gingen wesentliche Teile des reich und farbig illustrierten Originals verloren, moniert der Autor. Nur ausgewählte Kostbarkeiten werden mit so großer Sorgfalt digital faksimiliert wie 1999 eine um 1454 entstandene Gutenberg-Bibel. „Um das Buch zu bearbeiten, haben wir Verfahren eingesetzt, die gewährleisten, dass die Bilddaten auch den Ansprüchen künftiger Generationen standhalten“, sagt Martin Liebetruth vom Göttinger Digitalisierungszentrum: Die Bibel wurde auf eine so genannte Buchwippe gelegt, auf der sie sich schonend aufklappen ließ, um jede ihrer 1282 Seiten mit einer Spezialkamera in einer Auflösung von 8000 mal 9700 Pixel zu fotografieren. Ein Laser half, die Seite horizontal wie vertikal optimal zu positionieren. Unterdruck sorgte dafür, dass das Pergamentblatt auf einer Gaze völlig plan auflag. Das im Mac nachgeschaltete Farbmanagement „Colorblind“ garantierte schließlich die absolute Übereinstimmung mit dem Original. „Dieser Tage können Sie im Internet sehen, wie sich die Technik seitdem entwickelt hat“, sagt Jürgen Albert, der in Würzburg Informatik lehrt und unter dessen Regie die 330 Seiten der 1544 von Lorenz Fries vollendeten „Chronik der Bischöfe von Würzburg“ mit einer Auflösung von 600 dpi zu insgesamt 260 Gigabyte Daten digitalisiert wurden. Das Faksimile der Handschrift ist mit seiner Transkription sowohl ins Frühneuhochdeutsche als auch ins Hochdeutsche überblendbar. Dass die Faksimiles als Texturen für 3D-Modelle der Seiten genutzt werden, die sich dann wie richtige Seiten am Bildschirm umblättern lassen, ist Spielerei. Wichtiger ist hingegen, dass der gesamte Buchinhalt nun nach beliebigen Begriffen fehlertolerant durchsuchbar ist. + Mit Spezialmaschinen lassen sich bis zu 4000 Blatt Papier täglich spalten und mit einer Zelluloseschicht stabilisieren + Der Text ist von den Handschriften abgetippt worden – eine von zwei Methoden, eine Papiervorlage in maschinenlesbare Buchstaben zu verwandeln, die man nach Belieben gezielt durchsuchen, kopieren, speichern und elektronisch verschicken kann. Anfangs gab es zum simplen Abtippen keine Alternative. Doch allmählich wird die Handarbeit immer mehr durch die automatische Zeichenerkennung (OCR) verdrängt. Lediglich bei schlechten Vorlagen oder handgeschriebenen Texten wie dem aus Würzburg ist die manuelle Bearbeitung weiterhin unerlässlich (siehe Grafik Seite 88). Doppelt hält besser „Beim Abtippen unterscheiden wir Double- und Triplekeying“, erläutert Tobias Ott von der Pagina GmbH in Tübingen, die beispielsweise die neun eng bedruckten Mammutbände „Lexikon des Mittelalters“ mit ihren knapp 10 000 Seiten digitalisiert hat. Dabei werde der Text von zwei oder eben von drei verschiedenen Gruppen abgeschrieben. Gegenüber einer Fehlerrate von 98 Prozent beim einmaligen Abschreiben steigert ein Vergleich und eine – oftmals automatische – Korrektur der zwei oder drei unterschiedlich erfassten Vorlagen die Fehlerrate „auf garantierte 99,998 Prozent“, wie Ott sagt. 98 Prozent klingen wenig, wären aber beinahe hundert Fehler auf einer komplett mit Text gefüllten Seite von „Technology Review“; bei 99,998 Prozent ist lediglich ein einziges Zeichen auf zehn Seiten fehlerhaft. „Einen nur einmal abgeschriebenen Text Korrektur lesen zu + 196 v. Chr. Stein von Rosetta, 1799 entdeckter Basaltstein, in den ein Dekret in Hieroglyphen sowie auf Griechisch und Ägyptisch geritzt wurde. Ermöglicht ab 1822 die Entzifferung der Hieroglyphen. 105 Papierherstellung aus Baumrinde, Hanf und Lumpen durch Tsai-Lun in China. Ab 175 werden Texte von Steintafeln auf Papier abgezogen und so im Abklatschverfahren vervielfältigt. 868 In China wird die Diamant-Sutra mit Holzplatten auf Papier gedruckt. Die 1907 in der Provinz Gansu geborgene und 5,30 Meter lange Schriftrolle gilt als ältestes gedrucktes Buch. ca. 1040 Druck mit beweglichen Lettern durch den Arbeiter Bi Sheng in China, der Keramikstempel auf einer Eisenform mit Wachs zu einem „Seitenspiegel“ fixiert. + TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags. tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 86 lassen, ist kostspieliger als die Doppelt- oder Dreifacherfassung“, sagt Ott. Abtippen könne jeder, zur Kontrolle sei jedoch „verstehendes Lesen“ durch einen wesentlich teureren Experten notwendig. Grimm’sches Großprojekt Schon vor drei Jahren zeigte ein Team um den Trierer Germanistikprofessor Kurt Gärtner mit der Digitalisierung des Deutschen Wörterbuches der Brüder Grimm, wie ein groß angelegtes Digitalisierungsprojekt vonstatten gehen kann: Zwei Gruppen von jeweils zwanzig Chinesen doublekeyten die 300 Millionen Zeichen für 60 Cent zu je 1000 Anschlägen. Mit aus der Kryptographie entliehenen Methoden durchsuchten dann selbst entwickelte Softwareagenten die beiden Word-Fassungen + Um dasWörterbuch der Brüder Grimm zu digitalisieren, tippten zwei Teams von je 20 Chinesen die 300 Millionen Zeichen ab + nach Fehlern. Dieses Textmassiv strukturierten die Trierer anschließend mit einer Kombination von Software und manuellen Eingriffen. Sie orientierten sich dabei am allseits anerkannten Standard SGML/XML und zeichneten die einzelnen Sinneinheiten wie Stichwort, Zitat und Verweise nach der unter Bibliotheken üblichen Konvention aus. In eine Datenbank umgesetzt, kann der Leser nun über einen Browser Fragen an das Wörterbuch richten („Wie oft wird Goethe, wie oft Hitler als Quelle angeführt?“), die aus den 32 Buchbänden kaum jemals präzise zu beantworten wären – und schon gar nicht in Sekundenschnelle (67 196-mal wird der Dichterfürst, 114-mal der Diktator benannt). Niemand in Deutschland bringt digitalisiertes Kulturgut so verschwenderisch unter die Leute wie die Digitale Bibliothek des Directmedia-Verlages, der 1997 mit seinem Bestseller „Deutsche Literatur von Lessing bis Kafka“ – 160 000 Seiten von über 100 Autoren – die heute größte CD-ROM-Reihe im deutschen Sprachraum begründete. Sie demokratisiert seitdem Literatur und Nachschlagewerke, die als Buch gekauft rund 100 000 Euro kosten – statt 4630 Euro auf Silberlingen; und über 200ˇRegalmeter füllen würden – statt 1,5. 95ˇProzent Rabatt bietet kein Discounter. Die Berliner digitalisieren Vorlagen sowohl durch Abschreiben, wie etwa bei den 150 000 Karteikarten der „Stiftung Archiv der Parteien und Massenorganisationen der DDR“, als auch durch automatische Zeichenerkennung (OCR). Daneben gibt es noch kleinere Unternehmen, die ebenfalls per OCR digitalisierte Literatur verfügbar machen. Oftmals treibt sie ein inhaltliches Interesse. So verlegt Karsten Worm vor allem Philosophen wie Kant, Fichte, Pascal, Leibniz und Platon in philologisch peinlich genau edierten Ausgaben. Mit der faksimilierten, transkribierten und übersetzten Ausgabe der um 1615 erschienenen „Neuen Chronik“ hat der Berliner zum ersten Mal einen zentralen und zum Weltkulturerbe gezählten, reich illustrierten Text über das Leben der Inkas und die kolonialen Ungerechtigkeiten der Spanier auf CD gebrannt. Der „Verlag Olga Benario und Herbert Baum“ bietet die auf Papier schwer verdauliche 13-bändige Ausgabe „Stalin – Werke“ OCR-digitalisiert auf CD an. Und auch die 200 000 Seiten der österreichischen „Arbeiter-Zeitung“ von 1945 bis 1989 sollen in absehbarer Zeit digitalisiert werden. „Wegen ihres wechselnden Layouts sind Zeitungen allerdings schwieriger automatisch umzusetzen“, sagt Andy Kaltenbrunner. Der Wiener Medienberater schätzt die Kosten für die OCR-Erfassung der bereits faksimilierten Zeitung auf bis zu 400 000 Euro, bei einer Fehlerquote von zwei bis drei Prozent. Kein Gesamtkonzept Ein Vergleich dieser privaten und öffentlichen Projekte macht ein generelles Dilemma der Digitalisierung sichtbar: Zwar arbeitet jedes Unternehmen und jede Institution für sich genommen weit gehend konsistent, doch sind die erfassten Inhalte selbst bei den fast hundert von der Deutschen Forschungsgemeinschaft (DFG) geförderten Digitalisierungsprojekten oft nur über verschiedene Abfragemasken zugänglich. Mit dem Programm der „Digitalen Bibliothek“ etwa kann man lediglich auf die dort erschienenen Werke zurückgreifen, aber zum Beispiel nicht auf das Grimm’sche Wörterbuch. Die DFG hat dieses Defizit erkannt: „1997 haben wir begonnen, derartige Projekte mit fünf bis sechs Millionen Euro jährlich zu fördern“, sagt Jürgen Bunzel, der dort für Digitalisierung zuständig ist. „Bis 2003 mussten wir die Techniken der Digitalisierung und die Präsentation im Internet erproben. Im zweiten Schritt geht es nun um eine nationale Digitalisierungsstrategie.“ Zudem verfolgt ESJOTTES/VON ROTWEIN + 1454 Johannes Gutenberg erfindet in Europa den Buchdruck mit beweglichen Lettern. Er stellt dabei die Metalllettern hoch präzise her, indem er sie in einem der frühesten Automaten gießt. 1845 Das „saure“ Holzschliffpapier von Friedrich Gottlob Keller ermöglicht die industrielle Produktion preiswerten Papiers. Es zersetzt sich jedoch leicht und zerfällt nach einigen Jahrzehnten. 1898 Magnetaufzeichnung von Schall auf Stahldraht durch Valdemar Poulsen. Er erfindet damit den Vorläufer von Tonband, Festplatte und Diskette, die später auch digitale Daten speichern. 1986 SGML wird in der ISO-Norm 8897 als abstrakte Sprache zur inhaltlichen Auszeichnung und Strukturierung elektronischer Texte festgelegt; sie bildet die Basis für HTML und XML heutiger Digitalisierungsprojekte. + FOKUS DATEN FÜR DIE EWIGKEIT 86 FOKUS TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags. tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 87 die DFG das Ziel, Archivbestände, die selten oder in schlechtem Zustand seien, im Internet zugänglich zu machen, und zwar kostenlos. Die renommierte Digitalisierungsfirma Chadwyck-Healey berechnet dagegen für den ganzen Goethe auf CD mehr als 7500 Euro. Als Stand der Technik zur Datenablage gilt der XMLStandard, der die in ASCII-Zeichen umgesetzten Inhalte durch Metadaten strukturiert. Damit ist für die Ausgabe nicht nur eine bis zur Identität reichende Annäherung an das Original möglich. Je nach Erkenntnisinteresse lässt sich das Material auch beliebig neu zusammenstellen, wie es etwa das Grimm’sche Wörterbuch zeigt: Seine Einträge kann man auch in der umgekehrten Schreibweise – wie von rechts nach links buchstabiert – aufrufen, wodurch das größte Lexikon für Endreime entsteht. Doch wie lange wird es diesen Standard noch geben? „Sicherlich noch 10 bis 15 Jahre“, schätzt Informatikprofessor Jürgen Albert. Diese für Archivare erschreckend kurze Zeit macht sichtbar, wie fragil auch Werke sind, die mit ihrer Digitalisierung scheinbar im Hafen der Ewigkeit anlegen konnten. Raymond Lorie vom IBM Almaden Forschungszentrum schlägt daher einen Universellen Virtuellen Computer (UVC) vor: „Hierbei wird eine zum Beispiel mit XML strukturierte Datei zusammen mit einem speziell für den UVC geschriebenen Programm gespeichert. Der Charme für die zukünftige Lesbarkeit der Datei liegt darin, dass man dann für dieses UVC-Programm nur noch eine Art Übersetzer benötigt, den wir Emulator nennen.“ Der UVC sei ein schlichter, aber kompletter Computer. Seine Emulationsprogramme müssen zwar kontinuierlich auf dem Stand der zukünftigen Software, Betriebssysteme und Datenformate gehalten werden. Das sei aber wegen seiner einfachen Architektur leicht zu bewerkstelligen, sagt Lorie. „Die archivierten Daten werden deshalb über lange Zeit zugänglich bleiben.“ te über Jahrtausende zu retten. Eine moderne Variante dieser altertümlichen Informationsspeicher stellt das so genannte Rosetta-Projekt der „Long Now Foundation“ dar. Es basiert auf einer von Norsam Technologies in Hillsboro, Oregon, entwickelten Technologie: Auf eine Nickelschicht von fünf Quadratzentimeter Fläche lassen sich fast 200 000 A4-Seiten als unter dem Elektronenmikroskop lesbares Faksimile eingravieren. Diese Flaschenpost auf Siliziumträger ist selbst nach 24 Stunden bei Temperaturen von 300 Grad Celsius, wie sie bei einem Brand auftreten können, noch lesbar. Neben Plünderungen ist Feuer der größte Feind von Archiven, ihm fielen schon 48ˇv.ˇChr. Teile der auf etwa 900 000 geschätzten Schriftrollen der Bibliothek von Alexandria zum Opfer. Fehlende Liebe Derzeit sammeln knapp 2000 Freiwillige Texte, die auf die Rosetta-Scheibe geprägt werden sollen. Allein das Wörterbuch umfasst rund 400 000 Begriffe in 1400 Sprachen. Doch was empfiehlt ein Archäologe wie der an der belgischen Universität Leuven lehrende Joachim Bretschneider heutigen Archivaren, damit sich die Altertumsforscher des Jahres 5000 n.ˇChr. ein exaktes Bild unserer Kultur machen können? „Da fragt man sich als Erstes, ob die Menschen dann noch lesen können“, sagt Bretschneider. „Ein Bildwörterbuch in Englisch wäre eine Basis zur Entzifferung weiterer Texte.“ Auch feuerfeste, mit Keilschrift geritzte Tontäfelchen wie die aus Babylonien oder Persien, die sich schon über ihre ersten fünf + Botschaft für die Nachwelt: Auf eine winzige nickelüberzogene Tafel sollen beinahe 200 000 Seiten Text eingraviert werden + Moderne Keilschrift Bleibt noch die physikalische Speicherung der Daten. Hierfür hat sich weltweit die regelmäßige automatische Sicherung von zwei bis drei Kopien auf DVD, CD oder Bandkassetten bewährt – wenn diese an verschiedenen Orten gelagert und zyklisch auf neue Datenträger umkopiert werden, wie es beispielsweise gängige Praxis bei den ungefähr 34 Millionen Versicherungsverläufen der Bundesanstalt für Angestellte ist. Demgegenüber erfordern Papyrus, Pergament und Tontafeln keinen regelmäßigen Aufwand, um ihre Inhal- T SCHRIFT TEAR EX OL HN REVIE W 1995 DVD (Digital Video Disc), digitale Aufzeichnung durch eingebrannte Vertiefungen auf eine Scheibe von 12 Zentimetern Durchmesser und 1,2 Millimeter Dicke; Kapazität: 4,7 bis 17 Gigabyte. TE C 1989 Das World Wide Web entsteht auf Grundlage des Internets und erweitert sich rasch vom Kommunikationsmedium zur virtuellen Bibliothek nie gekannten Ausmaßes – allein Google sucht in mehr als acht Milliarden Seiten. Jahrtausende erhalten haben, findet er gut: „Nur über die Liebe erfahren wir in den antiken Tafeln leider nichts.“ Noch gibt es weltweit keine einheitlichen Strategien, das heutige Wissen über lange Zeiträume zu erhalten, weder auf technischer noch auf inhaltlicher Ebene. Möglicherweise reduziert eine Antwort auf die Frage: „Was ist wirklich wichtig?“ das vorhandene Material ja so enorm, dass der Rest in der Art moderner Keilschrift auf Tafeln eingraviert werden kann. Dieses Mal aber sollte die Liebe mit dabei sein. y TE JOT ES Derzeit sammeln 2000 Freiwillige Texte, die auf die Rosetta-Scheibe der Long Now Foundation geprägt werden sollen. Allein das Wörterbuch umfasst 400 000 Begriffe in 1400 Sprachen FOKUS 87 1998 Das Rosetta Project der Long Now Foundation will auf Nickel Texte in 1000 Sprachen als Mikrobilder gravieren, die heutige Sprachen als Übersetzungshilfe in die ferne Zukunft retten sollen. + 2000 Universeller Virtueller Computer (UVC),ein Vorschlag von Raymond Lorie (IBM), um das „digitale Erbe“ unabhängig von bestimmter Software und Hardware zu archivieren. + TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags. tr.0105.082-088 13.12.2004 9:50 Uhr ©Seite 88 88 FOKUS Mit Spezialsoftware lässt sich selbst schwer lesbarer Text maschinell digitalisieren Frakturschrift – wie sie etwa für den Titel der „Frankfurter Allgemeinen Zeitung“ verwendet wird – ist knifflig zu entziffern. Besondere Schwierigkeiten mit dem altertümlich anmutenden Schriftsatz hat die optische und automatische Zeichenerkennung, kurz: OCR (Optical Character Recognition). Die Buchstaben f und s etwa sind für sie auf den ersten Blick nicht voneinander zu unterscheiden. Auch Ligaturen lassen sich schwer einlesen. Ligaturen verbinden zwei Buchstaben zu einer neuen Zeicheneinheit, beispielsweise a und e zu æ. Immerhin konnte das Berliner Digitalisierungsunternehmen Directmedia die 20 Bände von Meyers Großem Konversations-Lexikon trotz Fraktur weit gehend automatisch in maschinenlesbaren Text umsetzen. Beim kleineren Schriftbild der gut 50 Jahre früher gedruckten 19 Bände von „Pierer’s Universal-Lexikon“ dagegen stieß OCR-Software bislang an ihre Grenzen. Bis März 2005 soll der Pierer nun jedoch ebenfalls auf Silberscheibe glänzen,mit höchstens zwei Fehlern auf 10 000 Zeichen. Basis für die Umsetzung sind Digitalfotos der Seiten, die mit 400 dpi Auflösung gescannt wurden. „Ein Buchstabe besteht dann aus etwa 45 Pixeln“, erläutert Erwin Jurschitza, Mit-Geschäftsführer von Directmedia. „Die Illustrationen setzen wir manuell in das Layout ein.“ Danach muss die Software auf den verwendeten Schriftsatz trainiert werden. Da zu diesem nicht nur Groß- und Kleinbuchstaben, sondern auch Ligaturen, Zeichen und Zahlen gehören, erhält Jurschitza am Ende etwa 100 Glyphen genannte Muster. Im Software-Training werden nun die Grenzen gesetzt. Wann ist ein Zeichen ein „c“, wann ein „e“? Aus den vielen Erscheinungsformen eines jeden Zeichens wird ein Mittelwert gebildet, der mit einer wählbaren Toleranz das gescannte Bild dem jeweils passenden Buchstaben zuweist. „Damit ist ein schneller PC fünf Minuten pro Seite ausgelastet“, sagt Jurschitza. „Wir lassen diesen Prozess bei uns im Netz deshalb nach Feierabend vornehmen.“ Trotz lernfähiger Automatismen ist die menschliche Fähigkeit, Muster zu erkennen – die Kombination von Auge und mitdenkendem Gehirn –, bisher unübertroffen. Und so sammeln sich am Ende auf dem Monitor nach Zeichen geordnete Zweifelsfälle, die ein Korrektor überfliegt und entscheidet, ob es sich etwa bei dem Zeichen „1“ um den Buchstaben „L“ oder die Ziffer „Eins“ handelt. Dank der bereits digitalisierten Texte kann Directmedia auf über drei Millionen Wortformen zurückgreifen, was zudem elektronische Plausibilitätskontrollen ermöglicht: Wenn es da keinen „Dampfschiss“ gibt, kreuzt wohl eher ein „Dampfschiff“ durchs Frakturmeer. Erst der Meyer, dann der Pierer. Was kommt als Nächstes? „Der Zedler“, sagt Jurschitza. Die zwischen 1732 und 1754 erschienen 68 Bände des „Großen vollständigen Universal-Lexicons aller Wissenschaften und Künste“ wurden von der Bayerischen Staatsbibliothek bisher nur als Faksimile ins Netz gestellt. Eine Volltexterfassung dieser Masse von 68 000 in eng gesetzter Fraktur bedruckten Seiten sei „nicht finanzierbar“, vermutet die Bibliotheksmitarbeiterin Marianne Dörr. Jurschitzas Team aber will das schaffen. Dass der Reprint heute sogar mit Sonderpreis 16 200 Euro kostet, macht die Sache nur interessanter. NILS SCHIFFHAUER + + Automatische Zeichenerkennung Beim OCR-Verfahren werden Schriftstücke elektronisch erfasst. Nacheinander trennt das Programm Bilder und Textblöcke, danach Zeilen und Spalten und schließlich einzelne Wörter sowie Buchstaben. Diese werden dann in einen Zahlencode umgewandelt. Textblock Bild Textblock ESJOTTES/VON ROTWEIN Doublekeying Die nahezu originalgetreue Nachbildung der Seite samt Schriftbild wird durch zwei Verfahren ermöglicht: Beim Musterverfahren werden die erkannten Pixelmuster mit katalogisierten Zeichen verglichen; bei der Merkmalsentnahme werden die Pixel zusätzlich noch mit geometrischen Elementen wie Kreisen oder Winkeln abgeglichen. Musterverfahren MerkmalsentEingesetzt wird schließlich das (Pattern Matching) nahme (Feature Zeichen, das die meisten ÜberExtraction) einstimmungen besitzt. 1 011 00 111 010 01 110 011 111 001 001 1111 01110 1010 11011 11 0 11 011 01 001 11 1 11 111 10 011 1 10 110 11 1 10 101 1 11 0 1 011 00 111 110 01 110 011 111 001 001 1111 01110 1010 11011 11 0 11 011 01 001 11 1 11 111 10 011 1 10 110 11 1 11 101 1 11 0 + 114 Beim Double- oder Triplekeying tippen zwei oder drei Gruppen von Personen den Text ab. Anschließend werden die erfassten Daten verglichen und bei Abweichungen voneinander korrigiert. Die Fehlerrate dieses Verfahrens liegt bei 0,002 Prozent. 145 ASCII; HTML; XML CD-ROM DVD Cartridge Internet + FOKUS DATEN FÜR DIE EWIGKEIT Vom Bild zum Bit TECHNOLOGY REVIEW Januar 2005 © Copyright by Heise Zeitschriften Verlag GmbH & Co. KG. Veröffentlichung und Vervielfältigung nur mit Genehmigung des Heise Zeitschriften Verlags.