Aus dem Protokoll des
60. Kolloquiums
über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 12. Februar 1994
Fritz Kemmler (Tübingen)
"Laute - Wörter - Sätze - Text":
EDV-gestützte Herstellung eines Lehrbuches für das Alt- und Mittelenglische
Im vorgestellten Projekt geht es um den Einsatz und den Nutzen der EDV bei den vielfältigen Arbeiten,
die mit der Herstellung eines Lehrbuches für das Alt- und Mittelenglische verbunden sind.
Der Begriff "Herstellung" bezieht sich dabei sowohl auf die Inhalte wie auch auf die Techniken und Probleme des elektronischen Setzens.
Das im Herbst 1994 erscheinende Lehrbuch wird folgende Gliederung haben:
- eine Grammatik mit Abschnitten zur Lautlehre, Formenlehre und Syntax für das Alt- und Mittelenglische
- zehn Texte und Textausschnitte aus dem Bereich der altenglischen Literatur
- vierzehn Texte und Textausschnitte aus dem Bereich der mittelenglischen Literatur
- Literaturverzeichnis
- Glossare für die alt- und mittelenglischen Texte.
Jeder dieser Teile bringt ganz spezifische satztechnische Probleme mit sich:
- Die Lektüretexte z.B. sollen einen Zeilenzähler erhalten, der gleichzeitig Bestandteil der Referenz in den Glossaren ist.
- Sprachliche und sprachgeschichtliche Erläuterungen zu einzelnen Formen des Textes sollen als Einschaltung (Wechsel der Schriftgröße) vor dem jeweiligen Text stehen - mit Verweisen auf die Zeilen, in der sie im Text zu finden sind.
- Inhaltliche und sprachliche Erläuterungen zu schwierigen Textstellen sollen in der Form von Fußnoten bei den Texten stehen, jedoch soll die Fußnotenverweisziffer weder im Text noch bei der Fußnote erscheinen.
- Im Glossar für die altenglischen Texte sollen sämtliche Formen aufgeführt sein; das Glossar für die mittelenglischen Texte ist dagegen ein Auswahlglossar.
- Im Bereich der Formenlehre im Grammatik-Teil sind mit erheblichem Arbeitsaufwand verbundene Konjugations- und Deklinationsparadigmata zu erstellen usw.
Die für diese Arbeiten nach und nach erstellten TUSTEP-Programme
sind zum einen im Bereich #SATZ angesiedelt, zum anderen im Bereich der eigentlich sprachhistorischen Fragestellungen und Probleme, also im Bereich der Inhalte.
I.
Für die Erfassung und Bearbeitung des Literaturverzeichnisses
wurde eine Prozedur in Form eines Benutzermakros zusammengestellt. Dieses dient
einerseits der Vermeidung formaler Fehler bei der Eingabe der Daten, andererseits
der Plausibilitätsprüfung der Daten; es erlaubt weiterhin
eine mit wenig Aufwand verbundene alphabetische Sortierung der Einträge
und die Ergänzung der für das Satzprogramm notwendigen Steueranweisungen.
Die tabellarisch angeordneten Konjugations- und Deklinationsparadigmata werden mit dem Satz-Programm für den Druck aufbereitet.
Da die in einer solchen Tabelle stehenden Formen unterschiedlich lang sind, ist es nicht ganz einfach, ohne die Hilfe eines formatierenden Editor-Bildschirmes
die zur Herstellung einer solchen Tabelle notwendigen Merk- und Positionierungsanweisungen zu definieren.
Um in diesem Bereich Doppelbelichtungen zu vermeiden und um die Tabellen auch optisch einigermaßen ansprechend gestalten zu können, werden die Leistungen
der Anweisung "&!e" in der Protokoll-Datei eines Satzlaufes systematisch ausgewertet.
Zur Umrechnung der in der Protokoll-Datei in Bildlinien angegebenen horizontalen Position in Didot-Punkt
(und darauf fußen ja die Merk- und Positionierungsanweisungen) dient ein
Benutzermakro, das außerdem im Dialog Informationen zur verwendeten Schriftgröße berücksichtigen kann.
Die im Buch abgedruckten Texte enthalten Erläuterungen zu schwierigen Textstellen
in der Form von Fußnoten (jedoch ohne Fußnotenverweisziffer im Text und bei der Fußnote).
Ein Programm ermöglicht es, die Fußnoten
maschinell mit eindeutigen Verweisen zu versehen, so daß der Benutzer die in den "Fußnoten" stehenden Informationen
der spezifischen Stelle im Text eindeutig zuordnen kann. Der Ansatzpunkt dabei ist der in den einzelnen Texten
fortlaufende Zeilenzähler; die jeweilige Zeilennummer wird von der Maschine hinter der Fußnotenverweisziffer eingetragen.
Bei mehr als 500 solcher "Fußnoten" in den Texten kann es so bei den Verweisen zu keinen Eingabefehlern (Zahlendrehern) kommen.
II.
Bei der Herstellung der Glossare waren zu folgenden Fragen Lösungen zu finden:
- Wie können die Kennzeichnungen für vokalische Länge
(TUSTEP-Codierung "%-") bei der Sortierung berücksichtigt werden, wenn Länge nach Kürze stehen soll?
- Wie sind die Sonderzeichen (z.B. "aesh", "thorn/eth") zu behandeln?
- Wie kann etwa bei den Pronominalformen und bei den Konjugationsformen eine Vorsortierung durch die Maschine erreicht werden?
Um nur ein Beispiel anzuführen: die im Präsens konjugierten Formen des Verbes "gehen" beginnen
im Mittelenglischen mit dem Buchstaben "g-"; im Präteritum konjugierte Formen erscheinen in den Texten
aber mit "3-, w-" und "y-". Bei den altenglischen Texten ergeben sich vergleichbare Sortierprobleme.
- Wie kann man erreichen, daß etwa die Belege "ealdorman" und "aldormon" aus den altenglischen Texten
den gleichen Sortierwert erhalten, in der Arbeitsdatei also unter "ea-" einsortiert sind?
- Ist es möglich, bei der Herstellung der Arbeitsdatei für die Glossare bei bestimmten Register-Einträgen
(etwa bei den problematischen "Wörtchen" a, i, o, ar, er, or) auch noch genügend vom syntaktisch-semantischen Kontext zu berücksichtigen,
so daß man bei der Bearbeitung der Glossare nicht ständig von der Belegdatei in die Textdatei wechseln muß?
Für diese arbeitstechnischen Probleme wurden TUSTEP-Programme entwickelt, die befriedigende Ergebnisse liefern.
III.
Auch bei philologischen Fragestellungen im engeren Sinne kann die Maschine Hilfe bieten:
Im Bereich der Syntax (Stichwort "Sätze") werden mit Hilfe eines Programmes
bestimmte syntaktische Strukturen in den Texten abgefragt, isoliert und auf
verschiedene Zieldateien ausgegeben, die z.B. nur Relativsätze, Temporalsätze usw. enthalten sollen.
Das Datenformat der dieser Auswahl zugrunde liegenden Quelldatei sieht folgendermaßen aus:
<SA406#32> Ne žearf šær žonne ænig anforht wesan, že him ær on breostum bereš beacna selest; ac šurh ša rode sceal rice gesecan of eoršwege æghwylc sawl, seo že mid Wealdende wunian ženceš.'<E-R> <SE>
Die Informationen in "< >" vor dem Satz geben Auskunft über die laufende Nummer der syntaktischen Einheit sowie über ihre Länge in Wörtern.
Der mitlaufende Wortzähler ermöglicht u.a. auch stilistische Untersuchungen.
Auf dem Gebiet der sprachlichen Merkmale (Stichwort "Laute"), die zur Bestimmung der regionalen Herkunft
besonders eines mittelenglischen Textes dienlich sein können, werden zwei Programme eingesetzt,
die solche Merkmale im großen und ganzen recht zuverlässig erkennen und für die
endgültige philologische Interpretation und Bewertung - und diese Arbeit wird die Maschine wohl nie leisten können - mit einem Kennzeichen versehen (machine-tagging).
So ist es mit Hilfe der Maschine durchaus möglich, recht schnell eine erste Orientierung
über die regionale Herkunft eines Textes zu bekommen.
Das Programm zur Filterung und Markierung regionaler sprachlicher Merkmale kann
romanisch/lateinische und skandinavische Lehnwörter in mittelenglischen Texten vorläufig markieren,
wie das folgende Beispiel zeigt, dem ein kentischer Text aus der 1. Hälfte des 14. Jahrhunderts zugrunde liegt.
Markierungen durch #KOPIERE:
***Süden?***
@ arisež [1] 66
***Kent?***
***Süden?***
@ arizež [1] 51
Die Zahlen in eckigen Klammern geben die Häufigkeit des Wortes an, die dahinter stehenden Zahlen die Zeilennummer des zugrunde liegenden Textes.
Ergebnisse der Bearbeitung:
- 1001 Wörter im Text
- 372 Registereinträge
- 157 Registereinträge markiert
Besondere Merkmale des Textes:
- Graphien und Wortschatz (40 Markierungen):
- 23 mal in- u. auslautendes "yogh"
- 15 mal Markierung für roman. Lehnwort
- 2 mal Markierung für skand. Lehnwort
- Leitformen für die Dialekte (116 Markierungen):
- 47 für den Süden
- 3 für das westliche Mittelland und den Südwesten
- 54 für Kent
- 5 für Kent und den Südwesten
- 5 für den Südosten
- 1 für das östliche Mittelland
- 1 für das westliche Mittelland
- 0 für den Norden
- Südhumbrischer Text
aus:
Protokoll des 60. Kolloquiums
über die Anwendung
der EDV in den Geisteswissenschaften am 12. Februar 1994