Protokoll des 60. Kolloquiums

Aus dem Protokoll des 60. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 12. Februar 1994

Heinrich Delfosse (Trier)

Von der Texterfassung bis zur Buch- und CD-ROM-Ausgabe.
Ein Werkstattbericht zur elektronischen Dokumentation von Franz Kafkas Schriften

Im Dezember 1993 ist in Tübingen bei Niemeyer die Synoptische Konkordanz zu Franz Kafkas Romanen erschienen:

Delfosse, Heinrich P.; Skrodzki, Karl Jürgen; Trauth, Michael:
Synoptische Konkordanz zu Franz Kafkas Romanen. Der Verschollene, Der Proceß, Das Schloß.
Teil 1: A-F. XXXIV, 708 S. - Teil 2: G-Q. VIII, 714 S. (= S. 709-1412) - Teil 3: R-Z. VIII, 732 S. (= S. 1413-2145)
[= Indices zur deutschen Literatur, Bd. 26-28] Tübingen 1993.

Diese Konkordanz ist ein erstes sichtbares Ergebnis des längerfristig angelegten Projekts der elektronischen Dokumentation der Schriften von Franz Kafka. Aus diesem Anlaß sollen hier einerseits die Erfahrungen bei der Erstellung der Synoptischen Konkordanz zu Franz Kafkas Romanen berichtet, andererseits die Andersartigkeit der Zugriffsweisen gegenüber dem Buch anhand der im Entstehen befindlichen lemmatisierten Datenbank zu Kafkas Gesamtwerk herausgearbeitet werden. Die Gleichrangigkeit der beiden Dokumentationsmittel Buch und Datenbank herauszustellen, ist die These des Vortrags: Buch und Datenbank in der literarischen Dokumentation sind keine konkurrierenden Medien. Vielmehr bieten sie der Forschung erstmals die Chance, zu einer umfassenden, komplementären Dokumentationsform zu gelangen.

Der derzeitige Datenbestand umfaßt im wesentlichen den Text der drei Romane; für die Bearbeitung der übrigen Schriften Kafkas, die Erzählungen (Drucke zu Lebzeiten), die Nachgelassenen Schriften und Fragmente (die Erzählungen in der Fassung der Handschriften enthaltend) sowie seine Tagebücher und Briefe, die übrigens noch nicht vollständig in der neuen Gesamtausgabe bei S. Fischer erschienen sind, werden sicherlich noch einige Jahre vergehen. Als Fahrplan der Texterschließungs- und Dokumentationsarbeiten zu Kafkas Gesamtwerk ergibt sich zwangsläufig, daß für die einzelnen Abteilungen der neuen kritischen Ausgabe jeweils eine Konkordanz angefertigt wird. Hinzu tritt freilich die generelle Feststellung, daß gegenwärtig überhaupt keine befriedigende, d.h. wissenschaftlichen Ansprüchen genügende elektronische Gesamtausgabe der Schriften Kafkas realisiert werden kann. Zwei entscheidende, weil zu offensichtliche Einwände sprechen zum gegenwärtigen Zeitpunkt dagegen: 1. die Unvollständigkeit der Veröffentlichung und der Aufbereitung der Texte Kafkas und 2. die für den wissenschaftlichen Umgang und Gebrauch von Texten aus philologischer Perspektive noch unausgereifte Retrieval-Software. Hingegen scheint die CD-ROM wegen ihrer enormen Fassungskraft wie kaum ein anderes aktuelles Speichermedium dazu geeignet, Texte vollständig als Corpus aufzunehmen. Datenbanken zu vereinzelten Texten, die aus ihrem natürlichen Werkzusammenhang herausgerissen sind, auf CD-ROM zu pressen, - wofür nur das Gebot der Ökonomie spräche - wäre angesichts der Kapazitäten dieses Mediums wenig sinnvoll.

Für Kafka eignet sich die CD-ROM für eine text- und textsortenübergreifende Dokumentationsform, die vollständig sein muß und die diejenigen Mängel ausgleichen können sollte, zu denen texterschließende Dokumentationen durch die bisher unumgängliche Buchform gezwungen waren.

1. Lemmatisierung als unverzichtbare Forderung

Neben der Vollständigkeit der Kafkaschen Texte, die uns (in einigen Jahren freilich erst) durch die neue kritische Ausgabe ausreichend gesichert zu sein scheint, tritt ein für dieses Medium neues unverzichtbares Moment hinzu, nämlich die Lemmatisierung. An eine Lemmatisierung, die immer dann notwendig ist, wenn der Text selbst Objekt des wissenschaftlichen Interesses wird, sind freilich unumstößliche Mindestanforderungen zu stellen.

Das Lemmatisierungssystem muß in bezug auf die Vorkodierung der Texte ökonomisch, d.h. wenig zeitaufwendig sein, es muß für die Bearbeiter plausibel und nachvollziehbar sein, es muß möglichst viele Phänomene der Sprache zumindest ansatzweise dokumentieren, und es muß sich für möglichst viele Textsorten eignen.

Die Zahl der verschiedenen Textphänomene, die für die elektronische Weiterbearbeitung aufbereitet werden sollten, ist begrenzt. Neben den Kodierungen, die bestimmte Eigenarten der deutschen Sprache in der lemmatisierenden Dokumentation nivellieren sollen, (z.B. Großschreibung von Nicht-Substantiven am Satzanfang), gibt es orthographische Varianzen in der Getrennt- und Zusammenschreibung und in der Groß- und Kleinschreibung im Satzinneren. Zudem müssen insbesondere unfeste Verbformen als solche auffindbar sein. All das hat auch bei der Entwicklung und Wahl eines geeigneten Lemmatisierungssystems den Ausschlag gegeben. Nicht einem linguistisch ausgereiften, differenzierten Lemmatisierungsverfahren ist der Vorzug zu geben, sondern einem Verfahren, das den konkreten Erfordernissen der philologischen und sprachhistorischen Fragestellungen pragmatisch Rechnung trägt. Bei allen Wortklassen, die für die Begrifflichkeit eines Textes von entscheidender Bedeutung sind, also insbesondere bei Substantiven, Adjektiven und Verben, ist ein Höchstmaß an Sorgfalt geboten. Bei denjenigen Wortklassen dagegen, in denen Wortformen mit grammatischer Polyvalenz besonders häufig vertreten sind und die deshalb häufiger in Texten vorkommen, muß der Aufwand für die Lemmatisierung in Grenzen gehalten werden.

Lemmatisierungsregeln sind keineswegs selbstverständlich, sie verlangen vielmehr in zahlreichen Fällen eine Entscheidung zwischen mehreren gleichberechtigten Vorgehensweisen. Damit ist der Nerv der Problematik einer jeden Lemmatisierung getroffen: Diese ist immer, zumal wenn sie weitgehend maschinell durchgeführt werden soll, ein schwieriger Balanceakt. Jede Form der Lemmatisierung wirft eine Reihe schwerwiegender Fragen auf - etwa hinsichtlich der Einteilung in Wortklassen, der Orthographie der Lemmata, der Behandlung der Partizipien oder der Auflösung von Homographen, um nur einige wenige der grundlegenden Probleme zu nennen. Im einzelnen sind deshalb folgende Anforderungen an das Lemmatisierungsverfahren zu stellen:

Die Lemmatisierung muß weitgehend maschinell durchgeführt werden können; Korrekturen von Hand sind auf ein unbedingtes Mindestmaß zu beschränken.
Die Lemmatisierung der Wortformen muß soweit wie möglich nach eindeutigen, formalen und kontextunabhängigen Regeln erfolgen; die Auflösung von Homographen muß auf genau definierte Fälle begrenzt werden.
Daraus ergibt sich zwangsläufig, daß das Lemmatisierungssystem nicht zu differenziert sein darf. So lassen sich etwa bestimmte Artikel, Relativ- und Demonstrativpronomina kontextunabhängig nicht unterscheiden.
Als vierte Forderung schließlich ist die Offenheit des Lemmatisierungssystem für autor- und textspezifische Phänomene zu beachten: Z.B. haben wir noch besondere Kennzeichnungen von bestimmten typischen Merkmalen bei der Wortbildung eingebracht, mit der Zielvorstellung, dereinst in der Datenbank zur Synpleremik einen zusätzlichen Service bieten zu können.

Ein höherer linguistischer Anspruch an die Lemmatisierung ist denkbar, aber aufgrund der Aufgabenstellung darf das Verfahren nicht in erster Linie nach linguistischen Gesichtspunkten beurteilt werden; es ist vielmehr daran zu messen, inwieweit es den konkreten Anforderungen der Sprachinformationsstrukturierung, oder genauer: der Sprachinformationsvorstrukturierung, zu genügen vermag. Nur so ist eine Offenlegung von Strukturzusammenhängen später in der Laborumgebung einer Datenbank möglich. Dabei steht die (auch maschinelle) Vergleichbarkeit verschiedener Texte und Textsorten im Vordergrund; diesem Ziel sind rein sprachwissenschaftliche Überlegungen unterzuordnen.

In unserem Fall war die leitende Zielvorstellung unseres ersten Teilprojekts die nun vorliegende Synoptische Konkordanz zu den Romanen Kafkas. Bei den Erzählungen wird man ein synoptisches Gliederungsprinzip nicht verwenden können. Auch für die Tagebücher und Briefe eignet sich die Synopsis nicht. Hierbei könnten wir eine chronologische Einteilung wählen, fielen da nicht die undatierten Dokumente aus dem Rahmen. Die synoptische Darstellung dokumentiert - überzeugend für die Buchform - frei von interpretatorischer Spekulation auf der Ebene des sprachlichen Befundes das Verbindende der drei Romane, öffnet aber auch zugleich den Blick für deren Differenzen.

Wird wie in der vorliegenden Synoptischen Konkordanz (und gleichermaßen auch im Blick auf die CD-ROM-Fassung) angestrebt, alle Flexionsformen eines Wortes unter seiner Grundform, dem Lemma, auffinden zu können, dann ist die Kenntnis des Verfahrens, nach dem die Lemmatisierung im einzelnen vorgenommen worden ist, unverzichtbar für die sachgerechte Benutzung der Buchfassung (und der späteren CD-Ausgabe).

Die Lemmatisierung eines Textes nach dem hier angewandten maschinenunterstützten Verfahren erfolgt in mehreren aufeinanderfolgenden Schritten. Als erstes muß der Text in Wortformen zerlegt werden; dann wird jede Wortform einer Wortklasse zugeordnet und anschließend mit einer Grundform verbunden. Schließlich müssen Homographen ihrer jeweiligen Bedeutung entsprechend unterschieden werden. (Zu den Einzelheiten der partiell viel komplexeren Verfahren vgl. die Einleitung S. XV-XXI.)

Die Zuordnung der Wortformen zu Wortklassen ist in den meisten Fällen eindeutig. Es gibt jedoch Gruppen von Wortformen, bei denen die Zuordnung nicht von vornherein klar ist und deshalb eigens festgelegt werden muß. Außerdem gibt es einzelne Wortformen, die je nach Kontext unterschiedlichen Klassen zuzuordnen sind; diese Wortformen sind Homographen. In der Konkordanz sind diese als solche nicht mehr als Gruppe zu erkennen, sie stehen vielmehr jeweils unter ihrem Lemma. In einer Buchausgabe könnte man sie in einer eigenen Liste zusammenfassen, wie wir das beim Trierer Kant-Index gemacht haben. In einer Datenbank ist die Information dagegen virtuell verfügbar.

Im Anschluß an die Wortklassenbestimmung wird jede Wortform in einem zweiten Schritt einer Grundform (dem Lemma) zugeordnet, unter der sie dann in der Konkordanz erscheint. Diese Grundform ist in der Regel die 'einfachste' Form, in der ein Wort auftreten kann. Alle Lemmata sind deshalb unflektiert; einige sind endungslos (z.B. 'schön', 'gut', 'manch', 'all'), andere sind jedoch aus mehreren, durch Kommata getrennten Wörtern zusammengesetzt (z.B. 'der,die,das'). Wort- und Grundform können identisch sein (z.B. Infinitivformen von Verben; oft bei Adjektiven, Konjunktionen usw.). Während bei den Wortformen die Schreibweise des Textes selbstverständlich gewahrt bleibt, richtet sich die der Lemmata nach den Normen der heutigen Orthographie.

Für die Zuordnung zur Grundform gelten wiederum eine Reihe von Regeln, die ich hier nicht alle nenne. Ich nenne nur zwei (Vgl. Einleitung, S. XVII f. Zu den Homographen ebd.S. XIX ff.):

Die Grundform der Substantive ist der Nominativ Singular (bei Pluralia tantum der Nominativ Plural), und zwar in der Form, wie er auf den bestimmten Artikel folgt (z.B. der,die,das 'Böse' - nicht ein 'Böses').
Die Grundform der Verben ist der Infinitiv Präsens Aktiv. Bei reflexiven Verben wird das Reflexivpronomen nicht zum Verb-Lemma gerechnet, sondern dem Lemma 'ich,du,er,sie,es,wir,ihr,sie' zugeordnet (und zwar auch bei echten reflexiven Verben wie 'sich ereignen', 'sich enthalten' usw.).

2. Kafka auf CD-ROM

Die Gründe für eine Erfassung von Kafkas Schriften auf einem elektronischen Datenträger sind selbstverständlich außerhalb der Datenverarbeitung zu suchen. Wird dagegen das Mittel 'lexikologische EDV' lediglich benutzt, um Konkordanzen zu Autoren zu erstellen, nur weil die EDV dergleichen unterdessen fast auf Knopfdruck zu liefern imstande ist - ein Phänomen, für das jetzt die bei Olms erscheinende Kant-Konkordanz ein trauriges Beispiel liefert -, oder wird das technische Mittel 'Datenbank' über einen dafür nicht ausreichend bearbeiteten und vorkodierten Text gestülpt, wie jüngst bei der Bonner Kant-Datenbank zum Kantischen Briefwechsel geschehen, so fallen die Ergebnisse entsprechend unbrauchbar aus. Als gelungenes Beispiel darf ich dagegen die 'Sämtlichen Werke und Briefe von Johann Heinrich Pestalozzi' auf CD-ROM erwähnen, bei der die Bearbeitung der 42 Bände der Gesamtausgabe durch Leonhard Friedrich und Sylvia Springer zu einer ausgewogenen Konzeption geführt hat - freilich ohne Lemmatisierung. Die Gründe für eine elektronische Erfassung werden vielmehr bedingt durch das Ziel des jeweiligen Projektes, in unserem Fall: eine vollständige Kafka-Datenbank zu erstellen, die möglichst umfassende Zugriffsmöglichkeiten auf möglichst viele Sprachphänomene Kafkas gewährleistet. Schon allein deshalb ist eine Lemmatisierung unumgänglich. Dieses allseits anerkannte Erfordernis ist im Grunde bisher nur deshalb nicht in die Tat umgesetzt worden, weil "durch on-line-Konkordanzprogramme bis heute" keine "vollständig und mit einer sorgfältigen Lemmatisierung und grammatischen Aufbereitung" versehene Konkordanzen "erbracht werden können" (so Winfried Lenders in seiner Rezension zu: Kant-Konkordanz zu den Werken Immanuel Kants. Olms-Weidmann, Hildesheim, Zürich und New York 1992. In: Kant-Studien 1/1993, S. 104).

Ein weiterer wesentlicher Grund für eine Lemmatisierung ist die nicht zu unterlaufende Bedingung der Vergleichbarkeit der verschiedensten Textsorten, die normalerweise ein jedes Autorcorpus ausmachen. Bei Kafka sind es Romane, Erzählungen, Notizen, Tagebuchaufzeichnungen, Briefe, Geschäftskorrespondenz. Verzichtet man bei einer solchen Zusammensetzung auf die Herstellung von Vergleichbarkeit, sinkt der Grad der Zuverlässigkeit von Information, ganz zu schweigen von deren (wenigstens intendierter) Vollständigkeit. Auch das Problem der sogenannten Parallelen oder Parallelstellen zwischen den Romanen sowie Erzählungen in der Druckfassung und den Erzählungen in der Fassung der Handschrift wäre dann schon im Ansatz nicht mehr anzugehen.

Die Verschiedenartigkeit der Texte legt die Vermutung der Verschiedenheit der darin sichtbar werdenden sprachlichen Phänomene nahe. Das muß natürlich auch ein Lemmatisierungssystem berücksichtigen. Selbst primär linguistische Gesichtspunkte können dabei nicht im Vordergrund stehen. Daß sich freilich eine Lemmatisierung überhaupt nur auf sprachwissenschaftlicher Grundlage durchführen läßt, versteht sich von selbst und sei zwecks Abwehr von Mißverständnissen ausdrücklich betont. Mir geht es hier um den Aufweis des Dilemmas: linguistischer Anspruch und dessen vollständige Umsetzbarkeit.

Zum Ende kommend möchte ich noch aphoristisch und durchaus unsystematisch einige Fertigkeiten aufzählen, über die eine auf wissenschaftlichen Informationszuwachs angelegte Datenbank zu Kafkas Schriften verfügen sollte. Datenbanken im juristischen, politischen, medizinischen und naturwissenschaftlichen Bereich haben in den letzten Jahren so etwas wie einen Standard geschaffen, hinter den man sicherlich nicht zurückfallen sollte. Drei Momente seien hier als Gliederungsschema angeführt: Suchfunktionen, Benutzeroberfläche und werk- oder sachspezifische Funktionen. Als besondere Komponenten kommen jeweils die unterschiedlichen Oberflächen hinzu, mittels derer der Benutzer durch die Datenbank geführt wird. Es scheint aber durchaus sinnvoll, alle diejenigen bewährten Features zu übernehmen, die auch bei Kafka sinnvoll wären. Ich zähle die wichtigsten Funktionen einmal auf:

Der maschinell erfaßte Text muß in seiner Einteilung die Referenzausgabe widerspiegeln.
Man sollte in den Texten blättern können, und zwar einerseits textlinear, und zum anderen sollte man seine Fundstellen textsequentiell anschauen können (buchkompatible Referenzstruktur).
Die Anfragen sollten als Protokolle gespeichert werden können, um die Anfrage zu einem späteren Zeitpunkt wiederholbar zu machen.
Textsorte, der Text selbst, Band der Ausgabe, Seite und Zeile soll jeweils sichtbar sein.
Die durch die verschiedenen Texttypen vorgegebenen Strukturen (Wort, Satz, Absätze oder Abschnitte, Kapitel) müssen elektronisch zugänglich und für die verschiedensten Fragestellungen verwertbar sein.
Die verschiedenen Dokumentenklassen (bei Kafka z.B. Brief, Erzählung, Tagebuchnotiz, Roman, Fragment) müssen einzeln, komplementärkontrastiv und als Werk behandelt werden können.
Der Thesaurus, also das Begriffssystem, in dem Begriffsrelationen festgelegt sind, sollte hierarchisch und relationsflexibel gegliedert sein: Von der Wortklasse gelange ich z.B. zu einer alphabetischen Liste der Lemmata, von einem bestimmten Lemma zu einer Liste der Okkurrenzen, von der ich in eine Textsorte verzweigen kann, oder etwas konkreter: Zu der Textsorte "Erzählung" bekomme ich eine Liste aller Adjektive, die in dieser Textsorte belegt sind, und von diesen ganz bestimmten Adjektiven einer bestimmten Textsorte finde ich diejenigen, die mit a, b oder f anfangen und auf -sam, -lich oder -ig in ihren Lemmaformen enden.
Man sollte direkt zu einer bestimmten Seite, zu einer numerisch bestimmten Stelle gelangen können. Damit lassen sich etwa Zitationsangaben prüfen. Diese Angaben müssen problemlos exportierbar sein. Man sollte sich zu jeder beliebigen Stelle Notizen machen können. Diese Arbeitsnotizen sollten nach zu definierenden Sortierkriterien in eigene Textdateien zur Weiterbearbeitung ausgegeben werden können. In dieses Umfeld gehört auch das elektronische Exzerpieren z.B. durch Ausschneiden bestimmter Stellen oder Textstücke unter Angabe der betreffenden Referenz.
Die Suche innerhalb bestimmter Abstände (auf Zeichen-, Wort-, Satz- oder Absatzebene) muß frei definierbar sein. Suchkriterien müssen in ihrer räumlichen Dimension zu ihren verschiedenen Standorten im Text miteinander verknüpfbar sein. Die Frage etwa, "Wie ist die Positionsverteilung von Substantiven in Sätzen oder Absätzen in Kafkas Romanen?" muß die Datenbank beantworten können.
Als letzten Punkt möchte ich die Verfügbarkeit von statistischen Angaben im weitesten Sinn nennen. An jeder Stelle der Recherche sollte man Kenntnis von der Teilmenge haben können, in der man gerade sucht. Suche ich nach Adjektiven in den Erzählungen, sollte ich wissen können, wieviele es in den Briefen oder in den Tagebüchern sind. Eine relative Häufigkeitsangabe hierzu versteht sich von selbst. Suche ich nach Adjektiv-Substantiv-Kombinationen, ist die zahlenmäßige Kenntnis der Mengenverhältnisse hilfreich, um Sinnzusammenhänge bei der Suchanfrage zu stiften. Auch sollte es selbstverständlich werden, daß ich z.B. für Verteilungen Diagramme ausdrucken lassen kann.

Also: Alle im Textmaterial selbst konstituierten Strukturen (morphologisch, wortkombinatorisch, syntaktisch, texttypisch und -spezifisch, werkumfassend) müssen mittels einer elaborierten Datenaufbereitung so angelegt werden, daß sie dem Benutzer als Retrievalmöglichkeiten bei Bedarf zur Verfügung stehen.

Neben die bekannten und in fast allen mir zugänglichen Datenbanken ausreichend gelösten feldorientierten Abfragen müssen sachorientierte, auswahlspezifizierende Abfragemöglichkeiten treten, die sich natürlich miteinander kombinieren lassen sollten. Wünschenswert wäre aber, man könnte auf Zeichen- oder Stringebene anfangen, etwa mit den bekannten pattern-matching-Funktionen oder den in der UNIX-Welt bekannten regular expressions. Die Funktionen des TUSTEP-Editors bieten sich hier als Vorbild an. Jede Stufe aufwärts, also etwa von der morphologischen Ebene zur Wortformenebene, muß die Abfragemöglichkeiten der vorhergehenden beinhalten und zu Kombinationen mit ihr fähig sein. Wichtiges Mittel, solche Anfragen dem noch ungeübten Benutzer allererst zugänglich oder plausibel zu machen, ist eine geeignete Benutzeroberfläche. Damit ist zugleich ein weiteres Problem angesprochen, nämlich die Frage nach einer zumutbaren, leicht erlernbaren und handhabbaren Abfragesyntax. Hier stehen wir noch ganz am Anfang. Aber das Ziel vermögen Sie zu erkennen: mittels angemessener Vorarbeiten ein neues heuristisches Erkenntnismittel für die Philologien zu schaffen.

aus: Protokoll des 60. Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften am 12. Februar 1994

Heinrich Delfosse (Trier)

Von der Texterfassung bis zur Buch- und CD-ROM-Ausgabe. Ein Werkstattbericht zur elektronischen Dokumentation von Franz Kafkas Schriften

1. Lemmatisierung als unverzichtbare Forderung

2. Kafka auf CD-ROM

Von der Texterfassung bis zur Buch- und CD-ROM-Ausgabe.
Ein Werkstattbericht zur elektronischen Dokumentation von Franz Kafkas Schriften