Aus dem Protokoll des 70. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 28. Juni 1997

 

Wilhelm Ott (Tübingen)

Electronic publishing und Editionen, Indizes, Wörterbücher:
Anforderungen an Werkzeuge und Produkte


Die Begriffsinflation und -verwirrung, die im Umfeld unseres Themas allenthalben herrscht, ist der Anlaß für diesen Beitrag. Er soll einige Grundbegriffe klären und elementare Anforderungen definieren, die beim Computer-Einsatz in den Geisteswissenschaften beachtet werden sollten.

1. Die (herkömmliche) Rolle des Computers als Werkzeug

Wörterbücher, Indizes und Editionen, um deren elektronische Publikation es hier geht, sind die klassischen Felder geisteswissenschaftlicher EDV-Anwendung. Sie haben gemeinsam, daß bei ihrer Erstellung erheblicher Arbeitsaufwand für recht mechanische Tätigkeiten anfällt. Zum Sammeln, Archivieren, Ordnen des Materials haben auch die Geisteswissenschaftler lange vor dem Computer aktuelle technische Hilfsmittel genutzt wie den Kopierer, der das nicht nur für Wörterbucharbeit unentbehrliche Exzerpieren leichter und gleichzeitig weniger fehleranfällig machte.

An die Stelle dieser Werkzeuge ist längst der Computer getreten: Die Datenbank (wie auch immer man diesen Begriff definiert) hat den Zettelkasten abgelöst. Für Wörterbucharbeit und Indizes sind es die Möglichkeiten zur Sortierung und zur Kontrolle von Querverweisen, die ein Arbeiten ohne Computer undenkbar erscheinen lassen; für Editionen kommen das automatische Kollationieren und die Weiterverarbeitung der Kollationsergebnisse hinzu. Der Einsatz solcher Werkzeuge hat die Durchführung vieler Projekte überhaupt erst ermöglicht.

In der Regel haben Geisteswissenschaftler den Computer aber als Schreibmaschine entdeckt: daß man einen Text nie mehr zweimal schreiben muß, auch nicht bei größeren Revisionen, erspart viele fehleranfällige Arbeitsgänge. Wird der Text auf Diskette an den Verlag geliefert (oder gar eine mit DTP-Techniken und Laserdrucker erstellte Druckvorlage), so entfällt auch die Mühe des Aufspürens und Korrigierens von Setzerfehlern - ein sonst vor allem bei kritischen Editionen ebenso unabdingbarer wie zeitaufwendiger Vorgang.

2. Die neue Rolle des Computers als Publikationsmedium

Daß de facto das Potential des Computers als Werkzeug in den meisten geisteswissenschaftlichen Projekten noch längst nicht ausgeschöpft wird, fällt angesichts der rapiden Entwicklung gar nicht weiter auf. Denn die Rolle, die der Computer inzwischen als Informations-, Präsentations- und Kommunikationsmedium spielt, hat im allgemeinen Bewußtsein seine traditionelle Rolle als Werkzeug für den Wissenschaftler längst verdrängt.

Damit sind wir bei der angekündigten Begriffsklärung: Geht es, wenn wir vom Computer-Einsatz in den Geisteswissenschaften sprechen, um das Werkzeug Computer oder um das Medium Computer?

Die Mainzer Akademie der Wissenschaften hatte im Mai dieses Jahres (1997) zu einem Kolloquium über "Neue Publikationsformen für geisteswissenschaftliche Akademievorhaben auf CD-ROM und im Internet" eingeladen. In dieser Themenstellung ist eindeutig das Medium angesprochen. Der Text des Einladungsbriefes sprach jedoch eher vom Werkzeug, wenn davon die Rede war, "auf der Basis einer standardisierten Software Wörterbücher, Indices und Editionen für die Publikation in den neuen elektronischen Medien herzustellen". Wäre auch hier das Medium Computer gemeint, so hatte dort wohl eher gestanden: "zu publizieren" statt "für die Publikation herzustellen".

Den Unterschied zwischen "Medium" und "Werkzeug" möchte ich an einigen Beispielen veranschaulichen.

a. Ein Beispiel aus dem Editionsbereich.

Das erste (im Kolloquium am Rechner vorgeführte) Beispiel ist für Demo- und Kurszwecke konstruiert. Dazu wurden 100 Seiten aus einem Band der Schelling-Edition kopiert und dabei die echten Apparateinträge entfernt. Von dieser Datei wurde eine weitere Kopie erstellt, in der gezielte Änderungen vorgenommen wurden; auf diese Weise entstand eine (künstliche) zweite Textfassung und damit eine (künstliche) Überlieferungslage, an der bestimmte Eigenschaften des Editionswerkzeugs gezielter demonstriert werden können als an den echten Daten.

Werfen wir zunächst einen kurzen Blick auf die Medien, in denen das Ergebnis der editorischen Arbeit publiziert werden könnte:

In der gedruckten Edition stehen die Varianten wie üblich am Fuß der Seite. Diese Form der Publikation bedarf, da allgemein bekannt, keiner weiteren Erläuterung.

In der elektronischen Form könnten, wie im vorgeführten Beispiel, die beiden Textfassungen nebeneinander gestellt werden; die Stellen, an denen Unterschiede gefunden wurden, werden hervorgehoben; ein Mausklick auf diese Stellen zeigt in einem Fenster unterhalb des Textes den zugehörigen Apparateintrag. Von dort kommt man durch Anklicken eines Quellen-Sigels zur entsprechenden Stelle in der damit bezeichneten Textversion, wo dann die gleichen Operationen durchgeführt werden können. - Für die Demonstration wurde die für Internet-Publikationen übliche Form von HTML-Dateien gewählt. Eine solche Edition kann mit den übichen WWW-Browsern konsultiert werden, auch wenn sie nicht im Netz, sondern auf der lokalen Festplatte oder einer CD zugänglich ist.

Wenden wir jetzt unseren Blick auf das Werkzeug, mit dem diese Demo-Edition erstellt wurde. Ausgangspunkt waren, wie gesagt, zwei zunächst identische Textdateien, deren eine gezielt verändert wurde. Ein automatischer Vergleich weist alle diese Änderungen nach, und zwar sowohl in Form von Listen für eine direkte Konsultation durch den menschlichen Nutzer als auch in Form einer Datei, die für die automatische Weiterverarbeitung gedacht ist.

Über relativ einfach formulierbare Regeln kann man das dort gespeicherte Variantenmaterial aufteilen in solches, das pauschal im Vorwort abgehandelt werden soll (z.B. die Unterscheidung in der Orthographie der Anfangs-Umlaute oder andere Orthographica), und solche, die einer Aufnahme in den kritischen Apparat für wert gehalten werden. Letztere werden über ein weiteres kurzes TUSTEP-Script als Apparat-Einträge in den Text an den Stellen eingefügt, auf die sie sich beziehen. So entsteht die gemeinsame Textbasis, aus der die beiden gezeigten Formen der Publikation (oder beliebige andere) erzeugt werden.

b. Ein (echtes) Beispiel aus Wörterbucharbeit: das Gesamtregister zu "Paulys Realencyclopädie der Classischen Altertumswissenschaft".

Dieses Register liegt seit Anfang 1997 als Buch und als CD-ROM vor. Hergestellt wurde beides aus einer gemeinsamen Datenbasis, einer TUSTEP-Datei mit einer anwendungsneutralen inhaltlichen Auszeichnung. Für die Buchproduktion hat das Satzprogramm daraus PostScript-Files erzeugt, die mit Hilfe eines Satzbelichters in ausgeschossener Form direkt auf die Druckplatte belichtet wurden.

Dem Buch liegt die CD-ROM mit der elektronischen Form des gleichen Registers bei. Für diese hat ein TUSTEP-Script die schon genannte Datenbasis in ein sog. Flat File verwandelt, das in Folio Views importiert wurde. Die so erzeugten Folio Info-Base wurde zusammen mit der zugehörigen Software auf die CD-ROM übertragen.

Das Werkzeug, das zur Herstellung dieser Medien diente, spielt für den Benutzer weder beim fertigen Buch noch bei der elektronischen Ausgabe eine Rolle. In beiden Fällen diente es zur Pflege der Dateien, zur Sortierung, zur Kontrolle der Querverweise, bei der Vorbereitung der elektronischen Fassung außerdem zum automatischen Erzeugen der Hyper-Links bei Stichworten, von denen auf andere verwiesen wird, und schließlich zur Herstellung des PostScript-Files für die Buchausgabe bzw. des Folio Flat Files für die elektronische Ausgabe. Das Werkzeug Computer hat damit seine Aufgabe erfüllt.

Nun zum Medium Computer. Gegenüber dem Buch hat die elektronische Form den Nachteil, daß sie nicht ohne technische Hilfsmittel auskommt. Man benötigt einen PC mit einem Betriebssystem, auf das die Präsentationssoftware der CD abgestimmt ist. Diesem Nachteil stehen unübersehbare Vorteile gegenüber: So kann man z.B. über die eingebauten Register-Funktionen feststellen, wo in den Erläuterungen zu den Stichworten der Ort "Trier" genannt ist, oder welche Autoren wie viele Artikel verfaßt haben - Unterfangen, die mit der gedruckten Fassumg zwar theoretisch ebenfalls möglich, praktisch aber nicht durchführbar wären.

3. Eigenschaften elektronischer Medien

Bei der Demonstration sind - neben den offensichtlichen Vorteilen - einige weniger positive Eigenschaften der elektronischen Publikation aufgefallen, die wir bei unser Diskussion bedenken müssen:

Eigenschaft Nr. 1: Im Unterschied zum gedruckten Buch sind die neuen Publikationsformen nicht ohne technische Hilfsmittel (Hardware und Software) zugänglich. Diese bieten außerdem sehr unterschiedliche Oberflächen, deren man sich bedienen muß, wenn man auf so publizierte Texte zugreifen möchte.

Eigenschaft Nr. 2: Im Unterschied zum gedruckten Buch sind die neuen Publikationsformen sehr kurzlebig. Dies hat drei Gründe:

Elektronische Medien bedürfen aus den genannten Gründen ständiger Pflege: Umkopieren, um elektromagnetischem bzw. physischem Verfall vorzubeugen; Portieren auf neue Generationen von Datenträgern; Anpassen der Zugriffs-Software an neue Betriebssysteme; ggf. Umarbeiten des Datenbestandes für neue Zugriffs-Software.

Die Zeit verbietet mir, dies näher auszuführen. Statt dessen zitiere ich Manfred Koltes, der die 1995 bei de Gruyter auf CD-ROM erschienene, mit Folio Views aufbereitete Nietzsche-Ausgabe in editio 1996 (S. 223-227) rezensiert. Er schreibt angesichts der Kurzlebigkeit elektronischer Produkte: "Aus diesem Grund ist es erforderlich, die eigentlichen Textdaten so zu codieren, daß sie unabhängig von speziellen Programmen bleiben, Programmen, die selbst nicht dauerhaft sein können, da sie an der jeweiligen Systemplattform orientiert sind. Nur dann haben die elektronischen Texte, in deren Erstellung in der Regel erhebliche Arbeit gesteckt wurde, eine Zukunft." Er weist auf die 1994 veröffentlichten Empfehlungen der Text Encoding Initiative zur hardware- und software-unabhängigen Codierung von Texten hin, denen die Standard Generalized Markup Language (ISO 8879 von 1986) zugrundeliegt. Nach solchen Standards codierte Texte sind insofern alterungsbeständig, als sich die Codierung nur am Inhalt der Texte, nicht an Vorgaben einer bestimmten Präsentations- oder Analysesoftware orientiert. Da die Nietzsche-Texte bei der Vorbereitung der CD nach den TEI-Guidelines codiert wurden, bedauert er, nicht auch den TEI-codierten Text auf der CD zu finden. Er schließt mit der Empfehlung, die Bibliotheken sollten "solche CDs nicht aus ihrem Erwerbungsetat finanzieren, sondern aus dem Etat für Verbrauchsmittel."

4. Anforderungen an die geplanten Produkte

Damit sind wir bei den Anforderungen an die geplanten Produkte. Auch hier muß ich mich schlagwortartig kurz fassen.
  1. Im oben zitierten Einladungsschreiben der Mainzer Akademie war davon die Rede, daß solche Publikationen auf der Basis einer standardisierten Software erfolgen sollten. Wenn es dabei um die Zugriffs- bzw. Abfragesoftware geht, kann damit dem bereits angesprochenen Problem der verwirrenden Vielfalt unterschiedlicher Benutzeroberflächen gesteuert werden.
  2. Welche Software als Werkzeug für die Vorbereitung der elektronischen Produkte benutzt wurde oder wird, kann für die Benutzung gleichgültig sein, da, wie wir gesehen haben, das fertige Produkt dieses Werkzeug nicht mehr erkennen läßt (oder besser: nicht mehr erkennen lassen sollte).
    Nicht gleichgültig ist die Frage nach dem adäquaten Werkzeug für die Werkstatt selbst, in der das Wörterbuch oder die Edition vorbereitet wird. Hier spielen Fragen wie Flexibilität, Sicherheit, Funktionalität, Integration, Professionalität, langfristige Verfügbarkeit dieser Software eine Rolle.
  3. Für die langfristige Verfügbarkeit des elektronischen Produkts ist die Wahl einer bestimmten Retrieval-Software keine Lösung. Erforderlich ist hierfür vielmehr eine sofware-unabhängig kodierte Version des Textes. Diese muß entweder zentral ständig auf jeweils aktuelle Datenträger und Dateiformate kopiert und neu verteilt werden, oder aber, damit sie dezentral umkopiert und an andere Software angepaßt werden kann, Bestandteil der Publikation selbst sein. Letzteres erlaubt dem kundigen Benutzer zudem, mit anderer als der mitgelieferten Retrieval-Software auf den Text zuzugreifen und damit Fragen zu beantworten bzw. Analysen durchzuführen, die mit der mitgelieferten Software nicht möglich sind.
  4. Inhaltliche Anforderungen: Für das Werkzeug Computer stellt Kurt Gärtner 1994 in der Festschrift für Roy Wisbey fest: "Das neue Werkzeug ist freilich gerade aufgrund seiner Vorzüge (automatisches Exzerpieren, Sortieren, Vergleichen, Zählen usw.) früh in Mißkredit geraten, nicht allein etwa wegen der Berührungsängste der Philologen, sondern weil der ungeschickte und unpassende Einsatz des Computers leicht philologische und editorische Inkompetenzen verschleiern konnte. Das galt bis zum Anfang der 1970er Jahre für den Einsatz des Computers in der Lexikographie und gilt inzwischen immer mehr auch für Editionen".

Inzwischen erweist sich das Medium Computer, insbesondere im Editionsbereich, als ebenso verführerisch wie es das Werkzeug in den 60er und 70er Jahren war.

Ich will dabei nicht auf die Klagen eingehen, die über die Verbreitung kaum korrigierter, von copyright-freien älteren Editionen eingescannter Texte auf CD oder im Internet geführt werden. Es geht mir um den weit verbreiteten Irrtum, philologische Arbeit könne durch technische Vorgänge ersetzt werden. Dazu gehört auch die Ansicht, kritische Apparate seien bei "fortschrittlichen" elektronischen Editionen überflüssig, da man jedes Faksimile und jede Transkription neben dem Editionstext auf den Schirm holen und parallel dazu im Volltext studieren könne - was bei gedruckten Editionen mit kritischen Apparaten nur nach mühsamer Rekonstruktion möglich wäre. Ähnliches gilt für die Erschließung von Texten durch Register, die man glaubt einsparen zu können aufgrund der Möglichkeiten zur Volltextsuche oder zur Suche mit boolschen Verknüpfungen in automatisch erzeugten Indizes, wie sie etwa (um nur zwei Beispiel zu nennen) in Word Cruncher oder Folio Views enthalten sind.

Wer diese Möglichkeiten kennt, wird für intensives Studium eines Textes nicht auf sie verzichten wollen. Sie sind jedoch kein Ersatz für ein durchgearbeitets Register, und zwar ebenso wenig wie der kritische Apparat bei reich überlieferten Texten ersetzt werden kann durch die Möglichkeit, beliebig viele Textfassungen parallel (was meist heißt: nacheinander je paarweise) am Bildschirm darstellen zu können.

Ein abschließendes (im Kolloquium am Rechner vorgeführtes) Beispiel soll dies verdeutlichen.

Das Beispiel stammt aus Band 4 der sechsten Reihe "Philosophische Schriften" der Leibniz-Editon, die dieses Jahr in drei Bänden mit insges. ca. 3000 Seiten und einem Registerband von ca. 500 Seiten im Akademie-Verlag erscheinen soll. Für rund 150 Seiten dieser Edition wurden die für den Satz kodierten Texte mit einem TUSTEP-Script in einen Flat File für Folio Views verwandelt, um Möglichkeiten eines elektronischen Supplements zum Buch zu erproben. Für die elektronische Fassung als Supplement zur gedruckten Edition wurde dabei auf "Buchidentität" geachtet, d.h. auf gleiche Seiten- und Zeileneinteilung wie im Buch und auf die Darstellung der entsprechenden Verweise.

Für Satz und Umbruch mit TUSTEP stehen Apparat-Einträge und Fußnoten in der Textdatei an den Stellen, auf die sie sich beziehen. Gleiches gilt für die Registereinträge. Dies wurde für die elektronische Fassung ausgenutzt: Alle Wörter, zu denen ein Apparat oder ein Kommentar vorhanden ist, wurden - optisch möglichst sparsam - als HyperLinks hervorgehoben. Bei Fußnoten ist die Verweisnummer der Link. Ein Mausklick auf die entsprechende Stelle zeigt in einem eigenen Fenster den zugehörigen Apparat, und zwar in einer übersichtlicheren Gestaltung als dies aus Platzgründen in der gedruckten Ausgabe möglich wäre.

Die Registereinträge sind als hidden text hinterlegt und können bei Bedarf sichtbar gemacht werden. Letzteres zeigt, wie gut der Text durch Registereinträge erschlossen ist, und zwar über Einträge, die systematisch gegliedert und erforderlichenfalls mit Zusätzen versehen sind und mit den Registern der bereits erschienenen Bände (die Leibniz-Edition läuft seit Anfang dieses Jahrhunderts) kompatibel sind. Auch wenn kein hidden text angezeigt wird, geben Sternchen einen Hinweis darauf, daß zu dieser Stelle (ggf. auch im Apparat-Eintrag zu dieser Stelle) ggf. weitere Information im Register hinterlegt ist. Ein Klick führt in das jeweilige Personen-, Schriften-, Sachen- oder Bibelstellenregister an die entsprechende Stelle. Dort sind die Referenzen (Seiten- und Zeilennummer) für die übrigen Stellen im Text genannt, an denen der gleiche Registereintrag vorkommt. Ein Mausklick auf diese Referenzen führt an die entsprechende Textstelle.

So viel zu diesem Beispiel und zu meinem Plädoyer, nicht der Versuchung zu unterliegen, philologische Arbeit durch die Möglichkeiten der neuen Medien ersetzen zu wollen. Letzteres wäre mit den eingangs zitierten Worten von Kurt Gärtner unter die Rubrik "Verschleierung philologischer und editorischer Inkompetenzen" einzuordnen.


aus: Protokoll des 70. Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften am 28. Juni 1997