Protokoll des 12. Kolloquiums

Protokoll des 12. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 2. Juli 1977

Allgemeine Information

Hinweis auf die soeben erschienene Vulgata-Konkordanz:

Novae concordantiae Bibliorum sacrorum iuxta vulgatam versionem critice editam quas digessit Bonifatius Fischer OSB. Tomus I - V. Stuttgart: Fromann-Holzboog 1977.

Damit ist das erste größere Projekt, das mit den Programmen der LDDV-Abteilung des ZDV erstellt wurde, abgeschlossen.

Michael Krupp (Jerusalem/Berlin)

Computerunterstützte Zusammenstellung von textkritischen Apparaten
(Erfahrungen bei der Herstellung der Mischna-Edition)

Über das Projekt im Anfangsstadium wurde bereits beim 2. Kolloquium in Tübingen am 23.2.1974 berichtet. Jetzt konnte die fertige Textedition vorgestellt werden. Sie ist unter folgendem Titel erschienen:

Krupp, Michael: Mischnatraktat Arakin. (Judaistische Texte und Studien. Band 5) Hildesheim/New York: Olms 1977

Beschreibung der Ausgabe
Bei der Mischna handelt es sich um Grundlagenliteratur des Frühjudentums. Die Ausgabe enthält einen von 63 Traktaten. Als Textgrundlage dient die anerkannt älteste Handschrift, die nur bei eindeutigen Fehlern verbessert wurde; dies wird aber in einem besonderen Apparat mitgeteilt, so daß die Primärhandschrift immer leicht erkennbar bleibt. Ansonsten folgen ein Zitatennachweis im Talmudtext, ein Fragmentennachweis, der Hauptapparat, ein Apparat, der die Verschiedenheit der Texteinteilung wiedergibt, ein Parallelstellenverzeichnis und ein Variantenapparat der Parallelstellen.
Herstellung der Textausgabe
1. Erfassen des Haupttextes
2. Ausdrucken des Haupttextes zu einer Liste, in die die Varianten aller Handschriften von Hand eingetragen werden können (kein automatischer Textvergleich).
3. Erfassen dieser Liste und Erfassen aller MSS; darauf Rekonstruktion eines jeden MS aus der Datei und automatischer Vergleich mit dem Text desselben MS. Verbesserung der Fehlerliste.
4. Automatische Voruntersuchungen zum gegenseitigen Verhältnis der MSS (für die reine Textedition entbehrlich).
5. Anordnung der Daten für den Satz.
6. Herstellung der Edition über die Satzprogramme und die Digiset-Lichtsetzmaschine.
Ausblick auf die Weiterarbeit
Schwerpunkte sind dabei:
1. Automatischer Textvergleich.
2. Automatische Herstellung der Gesamtdatei mit allen Varianten aus den Ergebnissen der Einzel-Vergleiche.
3. Verbesserung und Optimierung der eingesetzten eigenen Programme.
4. Ziel, die bisherigen eigenen Programme weitgehend durch die (u.U. noch weiter ausgebauten) Standardprogramme des ZDV zu ersetzen.

Gottfried Reeg (TAVO, Tübingen)

Maschineller Vergleich von Textzeugen zur Vorbereitung einer kritischen Edition

Von ca. 25 hebräischen Handschriften eines haggadischen Textes, die sich auf stark voneinander abweichende Rezensionen bzw. Versionen verteilen, sollen die besten Textzeugen einer jeden Version gefunden werden, die der kritischen Edition zugrunde gelegt werden. Dabei sollen Textvergleich und Auswertung der Varianten maschinell durchgeführt werden. In der Regel ist es nicht angebracht, die Zugehörigkeit zu einer bestimmten Version maschinell festzustellen, vor allem bei zu umfangreichen Abweichungen, da dann zuviel Rechenzeit benötigt wird und da die Gefahr besteht, daß Textstücke falsch zugeordnet werden. Dies geschieht, wenn sich in zwei verschiedenen Stücken eine gleiche Wortfolge von mindestens drei Worten findet, so z.B. der Name "r' iwmyal bn aliwy khn gdul" ("Rabbi Yishma'el ben Elisha", der Hohepriester; hebräischer Text wird nach einer projekt-internen Umschrift zitiert). Diese Gefahr kann durch die Angabe von Aufsatzpunkten vermieden werden; dies setzt jedoch eine Kenntnis der Texte voraus, die meistens ausreicht, die Handschrift einer bestimmten Version zuzuordnen. Bei den bisherigen maschinellen Vergleichen, bei denen Einschübe (mehr als zwei bis drei Zeilen) durch Aufsatzpunkte gekennzeichnet waren, lief das Programm einwandfrei. Die Rechenzeit erhöhte sich (z.B. für 700 Zeilen 100 Sek., für 50 Zeilen 4 Min.), wenn sich nur selten Folgen von mindestens drei identischen Wörtern fanden oder wenn kleinere Stücke fehlten. Außerdem wurde manchmal bei den Vergleichen falsch oder unterschiedlich zugeordnet, vor allem dann, wenn a) ein Wort in einem Text getrennt wurde, b) ein Wort hinzugefügt wurde oder c) ein Stück wegen Zeilensprung oder Homoloteleuton fehlte und wenn sich dann zusätzlich im näheren Kontext noch weitere Schreibvarianten fanden. Hierzu ein Beispiel:

1.2 umqul cyqtu hwqiph btu wimik urath ipiu wir' iwmyal . amru yliu: 1.2,5=wi mik; 1.2,8=wl; 1.2,8+r'; 1.2,10=,

(vgl. unten 4., 6.).

Auch war öfters die Auflösung der Varianten-Angaben nicht fein genug: Es wurden nicht einzelne Wörter, sondern eine ganze Wortgruppe als Variante ausgewiesen, z.B.:

1.1 btu aba bkk arak , am' lih ailmla: 1.1,6-8=amr ih almli

(vgl. unten 1., 3., 5.).

Probleme ergaben sich auch bei unterschiedlicher Satzzeichensetzung - Satzzeichen wurden durch ein Blank vom Wort getrennt und dadurch im Vergleich als Zeichenfolge, d.h. als Wort aufgefaßt - und bei Verbesserungen und zensierten Stellen im Text, die besonders gekennzeichnet werden müssen; so werden bxb(i)li und bxbili als unterschiedliche Worte interpretiert (vgl. unten 6.). Diese verschiedenen Fälle stören nicht weiter, wenn das Vergleichsergebnis manuell ausgewertet wird; für ein maschinelles Vorgehen müssen sie jedoch korrigiert werden. Um dies zu vermeiden, ist zu erwägen, ob durch weitere Angaben auf Parameterkarten die Zuordnung verbessert werden könnte, und zwar indem für die Zuordnung bei den angegebenen Fällen eine Abweichung übergangen wird, bei der Auflistung aber auch diese Varianten angegeben werden. Die wichtigsten Fälle, die zu berücksichtigen sind, dürften sein:

Unterschiedliche Schreibweise: da[ß] - da[ss], H[i]lfe - H[ü]lfe
Zeichenfolgen, die das gleiche aussagen: 14 - vierzehn
Hinzufügung von bestimmten Buchstaben (z.B. im Hebräischen plene und defektive Schreibweise): a[i]lmla - almla
Getrennte Schreibung: in Folge - infolge
Abkürzungszeichen
Satzzeichen, die bei der Zuordnung übergangen werden sollen: , . - ( )
Angabe eines Zeichens, das für jedes andere Zeichen stehen kann (Joker), wenn z.B. am Ende einer Zeile der Text fehlt.

Wilhelm Ott

Vorhandene und geplante Programme des ZDV zur Auswertung von automatischem Vergleich mehrerer Textfassungen

Die Ergebnisse des Vergleichs zweier Textfassungen A und B durch das Programm TXTVERGLEICH sollen nicht nur für das Auge lesbar sein, sondern bei Bedarf weiterverarbeitet werden können. In TXTVERGLEICH ist deshalb eine Ausgabe-Datei vorgesehen, in die (zusätzlich zum Druckprotokoll) die Textunterschiede eingetragen werden können. Die Form dieser Einträge richtet sich nach dem Verwendungszweck:

Verwendung der Datei zu Korrekturzwecken
Daß die Verwendung der von TXTVERGLEICH ausgewiesenen Unterschiede als Korrektur-Anweisungen für ein (noch nicht fertiggestelltes) TXTKORREKTUR vorgesehen ist, erkennt der mit unseren "Korrekturkonventionen für Textdaten" auf der CDC 3300 vertraute Benutzer an der Form, wie die Unterschiede im Druckprotokoll auf die Textzeile bezogen sind (nämlich Lokalisierung der Unterschiede durch Angabe der Seiten-Zeilen-Wort-Nummer): Diese Form erlaubt, aus der Textfassung A und den auf der Ausgabedatei als Korrekturanweisungen stehenden Textunterschieden die Textfassung B (mit Ausnahme der in Fassung B u.U. anderen Zeileneinteilung) herzustellen.
Verwendung der Datei bei textkritischen oder überlieferungsgeschichtlichen Fragestellungen
Die Verwendung für Zwecke der Textkritik stellt eine zweite Anforderung an diese durch TXTVERGLEICH gewonnenen Daten: Sie müssen sortierfähig sein, und zwar nach mehreren Gesichtspunkten.
Damit die Ausgabedaten mehrerer TXTVERGLEICH-Läufe (also die Unterschiede mehrerer Textfassungen von derselben "Kollationsgrundlage", Text A) zusammengefaßt werden können, muß das erste Sortiermerkmal die Stellenangabe für die "Variationsstelle" sein, das ist die Angabe der Seiten-Zeilen-Wort-Nummer. Außerdem muß nach der Sortierung noch erkennbar bleiben, aus welchem Vergleichslauf die Varianten stammen: Die "Korrekturanweisungen" auf der Ausgabedatei müssen eine Identifikation der jeweiligen Textfassung B aufnehmen können, die auch in der Sortierung berücksichtigt werden muß. Diese "Versionsnummer" muß entweder nach der Stellenangabe als zweites Sortiermerkmal (wenn man die Ausgabe nach Textzeugen ordnen will) oder nach dem Wortlaut der Abweichungen (für die Zusammenfassung gleichartiger Varianten) als drittes Sortiermerkmal berücksichtigt werden.
Eine dritte Anforderung schließlich ist, daß (weniger für die Zusammenstellung von kritischen Apparaten als zur Feststellung der Art der Variation in den einzelnen Textzeugen) die Zuordnung nicht nur zur Textstelle, sondern auch zum Wortlaut der Kollationsgrundlage erkennbar wird. Nur so können Fragen behandelt werden wie: Von welchen Zeugen wurde wie oft welche Lesart durch welche andere ersetzt. Die oben genannten Forderungen sind in TXTVERGLEICH berücksichtigt. An Programmen, die daran anschließen, sind derzeit vorgesehen:
1. Ein Programm, das die Ergebnisse mehrerer TXTVERGLEICH-Läufe zeilenweise unter dem Text der Kollationsgrundlage ausdruckt ("Interlinear-Apparat"). Eine Probe-Ausgabe dieses Programms wurde im Kolloquium vorgestellt.
2. Erweiterungen im Programm TXTSORTIERE (das Texte beliebiger Art für die Sortierung aufbereitet) derart, daß auch Ausgabe-Dateien von TXTVERGLEICH, die also Text-Korrekturanweisungen der o.g. Art enthalten und in denen vor der Weiterverarbeitung vom Bearbeiter noch Korrekturen vorgenommen wurden (die also auch Einträge enthalten, in denen die Stellenangabe noch nicht sortierfähig aufbereitet ist) verarbeitet werden können.

Die Ausgabe der so aufbereiteten und anschließend sortierten Daten kann durch das Programm TXTRAUSGABE erfolgen, und zwar in ähnlicher Form und mit all den Möglichkeiten, die für die Erstellung von Indizes und Registern vorgesehen sind. Beispiele hierzu wurden im Kolloquium vorgeführt. Diese Ausgabe kann in der Form schon recht weitgehend einem herkömmlichen kritischen Apparat gleichen. Da auch die Ausgabe von TXTRAUSGABE wieder in maschinenlesbarer Form möglich ist, ist damit der Anschluß gegeben nicht nur an die übrigen Textverarbeitungs-Programme, sondern auch an Programme, die die zusammengefaßten Textunterschiede zur Grundlage der Berechnung der Verwandtschaft der Textzeugen untereinander machen.

(Die Kurzfassungen der Referate wurden von den Referenten zur Verfügung gestellt).

Diskussion

Die Diskussion kann hier auf Grund der einheitlichen Thematik der drei Referate am Schluß des Protokolls zusammengefaßt werden. In der Diskussion wurden Fragen nach der Klassifizierung und Zusammenordnung der MSS zu Familien auf Anregung von W. Ott ausgeklammert, da sie Gegenstand eines späteren Kolloquiums sein sollen.

Die Diskussion drehte sich im wesentlichen um die folgenden Punkte:

Vermeidung von Fehlern bei der Datenerfassung
Die anzuwendende Methode ist u.a. von der Lesbarkeit der MSS abhängig; u.U. ist Präedition durch eine geschulte Fachkraft notwendig (Auflösung von Kürzeln u.ä.). Zur Vermeidung von Fehlern bei der Erfassung empfiehlt sich doppelte Erfassung der MSS durch verschiedene Personen und anschließend ein automatischer Vergleich der beiden Fassungen (nur gemeinsame Fehler beider Schreiber bleiben unerkannt).
Kennzeichnung von Varianten verschiedener Relevanz
Da z.B. graphische Varianten nicht dieselbe Bedeutung haben wie sinnverändernde Varianten, kann eine Erkennung solcher formaler Varianten wünschenswert sein. Wo diese Varianten automatisch nicht erfaßbar sind, ist Präedition notwendig (vor allem bei anschließender Lexikalisierung). Unterschiedliche Relevanzstufen sollten beim automatischen Vergleich getrennt kollationierbar sein.
Aufwand für die Volltexterfassung aller MSS
Ist es sinnvoll, auch bei umfangreichen Texten alle MSS im Volltext zu erfassen? Das Verfahren der manuellen Kollation aller MSS ist wegen des vielfach notwendigen Vergleichs der MSS komplizierter als die Erfassung großer Textmengen, die auch von Hilfskräften durchgeführt werden kann.
Als Alternative zur Volltexterfassung aller MSS wurde vorgeschlagen, nur die Varianten aller MSS in Bezug auf ein Grund-MS zu erfassen, dann die verschiedenen Textfassungen aus Grundtext und Varianten automatisch herzustellen und schließlich die einzelnen MSS mit ihrem maschinell rekonstruierten Pendant manuell zu vergleichen.

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 19. März 2002