Gottfried Reeg (TAVO, Tübingen)
Maschineller Vergleich von Textzeugen zur Vorbereitung einer kritischen Edition
Von ca. 25 hebräischen Handschriften eines haggadischen
Textes, die sich auf stark voneinander abweichende
Rezensionen bzw. Versionen verteilen, sollen die besten
Textzeugen einer jeden Version gefunden werden, die der
kritischen Edition zugrunde gelegt werden. Dabei sollen
Textvergleich und Auswertung der Varianten maschinell
durchgeführt werden. In der Regel ist es nicht angebracht,
die Zugehörigkeit zu einer bestimmten Version maschinell
festzustellen, vor allem bei zu umfangreichen Abweichungen,
da dann zuviel Rechenzeit benötigt wird und da die Gefahr
besteht, daß Textstücke falsch zugeordnet werden.
Dies geschieht, wenn sich in zwei verschiedenen Stücken eine
gleiche Wortfolge von mindestens drei Worten findet, so z.B.
der Name "r' iwmyal bn aliwy khn gdul" ("Rabbi Yishma'el ben
Elisha", der Hohepriester; hebräischer Text wird nach einer
projekt-internen Umschrift zitiert). Diese Gefahr kann durch
die Angabe von Aufsatzpunkten vermieden werden; dies setzt
jedoch eine Kenntnis der Texte voraus, die meistens
ausreicht, die Handschrift einer bestimmten Version
zuzuordnen. Bei den bisherigen maschinellen Vergleichen, bei
denen Einschübe (mehr als zwei bis drei Zeilen) durch
Aufsatzpunkte gekennzeichnet waren, lief das Programm
einwandfrei. Die Rechenzeit erhöhte sich (z.B. für 700
Zeilen 100 Sek., für 50 Zeilen 4 Min.), wenn sich nur selten
Folgen von mindestens drei identischen Wörtern fanden oder
wenn kleinere Stücke fehlten. Außerdem wurde manchmal bei
den Vergleichen falsch oder unterschiedlich zugeordnet, vor
allem dann, wenn a) ein Wort in einem Text getrennt wurde,
b) ein Wort hinzugefügt wurde oder c) ein Stück wegen
Zeilensprung oder Homoloteleuton fehlte und wenn sich dann
zusätzlich im näheren Kontext noch weitere Schreibvarianten fanden. Hierzu ein Beispiel:
- 1.2 umqul cyqtu hwqiph btu wimik urath
ipiu wir' iwmyal . amru yliu
- 1.2,5=wi mik
- 1.2,8=wl
- 1.2,8+r'
- 1.2,10=,
(vgl. unten 4., 6.).
Auch war öfters die Auflösung der Varianten-Angaben nicht fein genug: Es wurden nicht einzelne Wörter, sondern eine ganze Wortgruppe als Variante ausgewiesen, z.B.:
- 1.1 btu aba bkk arak , am' lih ailmla
- 1.1,6-8=amr ih almli
(vgl. unten 1., 3., 5.).
Probleme ergaben sich auch bei unterschiedlicher
Satzzeichensetzung - Satzzeichen wurden durch ein Blank vom
Wort getrennt und dadurch im Vergleich als Zeichenfolge, d.h.
als Wort aufgefaßt - und bei Verbesserungen und
zensierten Stellen im Text, die besonders gekennzeichnet werden
müssen; so werden bxb(i)li und bxbili als
unterschiedliche Worte interpretiert (vgl. unten 6.). Diese
verschiedenen Fälle stören nicht weiter, wenn das
Vergleichsergebnis manuell ausgewertet wird; für ein
maschinelles Vorgehen müssen sie jedoch korrigiert werden.
Um dies zu vermeiden, ist zu erwägen, ob durch weitere
Angaben auf Parameterkarten die Zuordnung verbessert werden
könnte, und zwar indem für die Zuordnung bei den
angegebenen Fällen eine Abweichung übergangen wird,
bei der Auflistung aber auch diese Varianten angegeben werden.
Die wichtigsten Fälle, die zu berücksichtigen sind, dürften sein:
- Unterschiedliche Schreibweise: da[ß] - da[ss], H[i]lfe - H[ü]lfe
- Zeichenfolgen, die das gleiche aussagen: 14 - vierzehn
- Hinzufügung von bestimmten Buchstaben (z.B. im Hebräischen plene und defektive Schreibweise): a[i]lmla - almla
- Getrennte Schreibung: in Folge - infolge
- Abkürzungszeichen
- Satzzeichen, die bei der Zuordnung übergangen werden sollen: , . - ( )
- Angabe eines Zeichens, das für jedes andere Zeichen stehen kann (Joker), wenn z.B. am Ende einer Zeile der Text fehlt.
Wilhelm Ott
Vorhandene und geplante Programme des ZDV zur Auswertung von automatischem Vergleich mehrerer Textfassungen
Die Ergebnisse des Vergleichs zweier Textfassungen A und B
durch das Programm TXTVERGLEICH sollen nicht nur für das
Auge lesbar sein, sondern bei Bedarf weiterverarbeitet
werden können. In TXTVERGLEICH ist deshalb eine
Ausgabe-Datei vorgesehen, in die (zusätzlich zum
Druckprotokoll) die Textunterschiede eingetragen werden
können. Die Form dieser Einträge richtet sich nach dem
Verwendungszweck:
- Verwendung der Datei zu Korrekturzwecken
Daß die Verwendung der von TXTVERGLEICH ausgewiesenen
Unterschiede als Korrektur-Anweisungen für ein (noch nicht
fertiggestelltes) TXTKORREKTUR vorgesehen ist, erkennt der
mit unseren "Korrekturkonventionen für Textdaten" auf der
CDC 3300 vertraute Benutzer an der Form, wie die
Unterschiede im Druckprotokoll auf die Textzeile bezogen
sind (nämlich Lokalisierung der Unterschiede durch Angabe
der Seiten-Zeilen-Wort-Nummer): Diese Form erlaubt, aus der
Textfassung A und den auf der Ausgabedatei als
Korrekturanweisungen stehenden Textunterschieden die
Textfassung B (mit Ausnahme der in Fassung B u.U. anderen
Zeileneinteilung) herzustellen.
- Verwendung der Datei bei textkritischen oder
überlieferungsgeschichtlichen Fragestellungen
Die Verwendung für Zwecke der Textkritik stellt eine
zweite Anforderung an diese durch TXTVERGLEICH gewonnenen
Daten: Sie müssen sortierfähig sein, und zwar nach
mehreren Gesichtspunkten.
Damit die Ausgabedaten mehrerer TXTVERGLEICH-Läufe
(also die Unterschiede mehrerer Textfassungen von derselben
"Kollationsgrundlage", Text A) zusammengefaßt werden
können, muß das erste Sortiermerkmal die
Stellenangabe für die "Variationsstelle" sein, das ist die
Angabe der Seiten-Zeilen-Wort-Nummer. Außerdem muß
nach der Sortierung noch erkennbar bleiben, aus welchem
Vergleichslauf die Varianten stammen: Die
"Korrekturanweisungen" auf der Ausgabedatei müssen eine
Identifikation der jeweiligen Textfassung B aufnehmen
können, die auch in der Sortierung berücksichtigt
werden muß. Diese "Versionsnummer" muß entweder
nach der Stellenangabe als zweites Sortiermerkmal (wenn man die
Ausgabe nach Textzeugen ordnen will) oder nach dem Wortlaut der
Abweichungen (für die Zusammenfassung gleichartiger
Varianten) als drittes Sortiermerkmal berücksichtigt werden.
- Eine dritte Anforderung schließlich ist, daß (weniger für
die Zusammenstellung von kritischen Apparaten als zur
Feststellung der Art der Variation in den einzelnen
Textzeugen) die Zuordnung nicht nur zur Textstelle, sondern
auch zum Wortlaut der Kollationsgrundlage erkennbar wird.
Nur so können Fragen behandelt werden wie: Von welchen
Zeugen wurde wie oft welche Lesart durch welche andere ersetzt.
Die oben genannten Forderungen sind in TXTVERGLEICH
berücksichtigt. An Programmen, die daran anschließen, sind
derzeit vorgesehen:
- Ein Programm, das die Ergebnisse mehrerer
TXTVERGLEICH-Läufe zeilenweise unter dem Text der Kollationsgrundlage ausdruckt ("Interlinear-Apparat"). Eine Probe-Ausgabe dieses Programms wurde im Kolloquium vorgestellt.
- Erweiterungen im Programm TXTSORTIERE (das Texte
beliebiger Art für die Sortierung aufbereitet) derart,
daß auch Ausgabe-Dateien von TXTVERGLEICH, die also
Text-Korrekturanweisungen der o.g. Art enthalten und in
denen vor der Weiterverarbeitung vom Bearbeiter noch
Korrekturen vorgenommen wurden (die also auch Einträge
enthalten, in denen die Stellenangabe noch nicht
sortierfähig aufbereitet ist) verarbeitet werden können.
Die Ausgabe der so aufbereiteten und anschließend
sortierten Daten kann durch das Programm TXTRAUSGABE erfolgen, und zwar
in ähnlicher Form und mit all den Möglichkeiten, die
für die Erstellung von Indizes und Registern vorgesehen
sind. Beispiele hierzu wurden im Kolloquium vorgeführt.
Diese Ausgabe kann in der Form schon recht weitgehend einem
herkömmlichen kritischen Apparat gleichen.
Da auch die Ausgabe von TXTRAUSGABE wieder in maschinenlesbarer
Form möglich ist, ist damit der Anschluß gegeben
nicht nur an die übrigen Textverarbeitungs-Programme,
sondern auch an Programme, die die zusammengefaßten
Textunterschiede zur Grundlage der Berechnung der
Verwandtschaft der Textzeugen untereinander machen.
(Die Kurzfassungen der Referate wurden von den Referenten zur Verfügung gestellt).
Diskussion
Die Diskussion kann hier auf Grund der einheitlichen
Thematik der drei Referate am Schluß des Protokolls
zusammengefaßt werden. In der Diskussion wurden Fragen
nach der Klassifizierung und Zusammenordnung der MSS zu
Familien auf Anregung von W. Ott ausgeklammert, da sie
Gegenstand eines späteren Kolloquiums sein sollen.
Die Diskussion drehte sich im wesentlichen um die folgenden
Punkte:
- Vermeidung von Fehlern bei der Datenerfassung
Die anzuwendende Methode ist u.a. von der Lesbarkeit der
MSS abhängig; u.U. ist Präedition durch eine
geschulte Fachkraft notwendig (Auflösung von Kürzeln
u.ä.). Zur Vermeidung von Fehlern bei der Erfassung
empfiehlt sich doppelte Erfassung der MSS durch verschiedene
Personen und anschließend ein automatischer Vergleich der
beiden Fassungen (nur gemeinsame Fehler beider Schreiber
bleiben unerkannt).
- Kennzeichnung von Varianten verschiedener Relevanz
Da z.B. graphische Varianten nicht dieselbe Bedeutung haben
wie sinnverändernde Varianten, kann eine Erkennung solcher
formaler Varianten wünschenswert sein. Wo diese Varianten
automatisch nicht erfaßbar sind, ist Präedition
notwendig (vor allem bei anschließender Lexikalisierung).
Unterschiedliche Relevanzstufen sollten beim automatischen
Vergleich getrennt kollationierbar sein.
- Aufwand für die Volltexterfassung aller MSS
Ist es sinnvoll, auch bei umfangreichen Texten alle MSS im
Volltext zu erfassen? Das Verfahren der manuellen Kollation
aller MSS ist wegen des vielfach notwendigen Vergleichs der MSS
komplizierter als die Erfassung großer Textmengen, die
auch von Hilfskräften durchgeführt werden kann.
Als Alternative zur Volltexterfassung aller MSS wurde
vorgeschlagen, nur die Varianten aller MSS in Bezug auf ein
Grund-MS zu erfassen, dann die verschiedenen Textfassungen aus
Grundtext und Varianten automatisch herzustellen und
schließlich die einzelnen MSS mit ihrem maschinell
rekonstruierten Pendant manuell zu vergleichen.
Zur