Protokoll des 70. Kolloquiums

Aus dem Protokoll des 70. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 28. Juni 1997

Kurt Gärtner, Ralf Plate und Ute Recker (Trier)

Textvorbereitung und Beleggewinnung für das Mittelhochdeutsche Wörterbuch

Von den großen Wörterbüchern, die den überlieferten Wortschatz der deutschen Sprache von ihren bezeugten Anfängen im 8. Jahrhundert bis zur Gegenwart erschließen, ist nicht nur den Sprach- und Literaturwissenschaftlern, sondern allen Gebildeten, die sich für die Geschichte der deutschen Sprache und Literatur interessieren, vor allem das von den Brüdern Grimm um die Mitte des 19. Jahrhunderts begonnene und nach über 100 Jahren in den sechziger Jahren abgeschlossene Deutsche Wörterbuch ein Begriff. Die lange Ausarbeitungszeit (1852-1960) und die damit verbundenen wiederholten konzeptionellen Änderungen hatten zur Folge, daß dieses Wörterbuch in vielen Teilen veraltet ist und mit den ähnlich umfassend angelegten großen historischen Wörterbüchern des Französischen (Trésor de la Langue Française, 16 Bände, 1971-1994) und des Englischen (Oxford English Dictionary, zweite vollständig überarbeitete Auflage in 20 Bänden, 1989) nicht mehr recht verglichen werden kann. Deshalb ist bereits vor dem Abschluß des Grimmschen Wörterbuchs in den fünfziger Jahren eine auf 10 Bände angelegte Teilbearbeitung für die ersten Bände mit den Buchstaben A bis F in Berlin und Göttingen begonnen worden, die unter schwierigen Bedingungen hervorragende Ergebnisse erbracht hat. Vor einiger Zeit ist auch ein EDV-Konzept von der Göttinger Arbeitsstelle des Deutschen Wörterbuchs entwickelt und hier vorgestellt worden (1). Aber auch wenn diese neubearbeiteten Teile erschienen sind, wird das "ganze" Grimmsche Wörterbuch im Vergleich mit seinem englischen Pendant, dem Oxford English Dictionary, das den gesamten Bezeugungszeitraum des Englischen erfaßt, immer noch uneinheitlich sein, denn in vielen Bänden ist z.B. die Sprache des 20. Jahrhunderts gar nicht oder auch nur einseitig berücksichtigt (2) .

Neben dem Grimmschen Wörterbuch, das detaillierter den deutschen Wortschatz erst von 1450 an dokumentiert, gibt es für die älteren Perioden der deutschen Sprach- und Literaturgeschichte umfassender angelegte Sprachstadienwörterbücher. Die Sprachstadien oder Perioden des Deutschen teilte man im 19. Jahrhundert, als die ersten großen Wörterbücher für das ältere Deutsch ausgearbeitet wurden, noch etwas anders ein als heute; in der Regel folgte man einer Dreiteilung:

bis 1100 Althochdeutsch
bis 1500 Mittelhochdeutsch
ab 1500 Neuhochdeutsch.

Heute bevorzugt man statt der Dreiteilung eine Vierteilung:

bis 1050 Althochdeutsch
bis 1350 Mittelhochdeutsch
bis 1750 Frühneuhochdeutsch
ab 1750 Neuhochdeutsch.

Die umfassende lexikographische Erschließung des Mittelhochdeutschen in den alten Periodengrenzen von 1100 bis 1500 wurde durch zwei große mittelhochdeutsche Wörterbücher im 19. Jahrhundert vorgenommen. Zuerst erschien das von G.F. Benecke konzipierte und von Wilhelm Müller und Friedrich Zarncke (= BMZ) ausgearbeitete vierbändige Mittelhochdeutsche Wörterbuch, 1854-62. Die Makrostruktur des BMZ bilden die Wortstämme, die als Hauptlemmata angesetzt sind; unter diesen sind dann alle Glieder der zu den Stämmen gehörenden Wortfamilien mit Unterartikeln angeordnet. Für die Mikrostruktur der Haupt- und Unterartikel von Verben ist die Gliederung nach syntaktischen Prinzipien charakteristisch. Die nicht strikt alphabetische Anordnung erwies sich bald als unbequem; daher faßte der Verleger des Mittelhochdeutschen Wörterbuches, Salomon Hirzel, sehr bald den Plan, ein strikt alphabetisch geordnetes Handwörterbuch ausarbeiten zu lassen, das als alphabetischer Index und zugleich auch als Supplement zu dem Vorgängerwörterbuch dienen sollte. Die Supplementfunktion des neuen Wörterbuchs sollte die recht einseitige Quellengrundlage des BMZ kompensieren, dessen Belege vor allem aus großen literarischen Werke der deutschen Literatur um 1200, allen voran aus dem Parzival Wolframs von Eschenbach, stammten. Das als alphabetischer Index und Supplement zum BMZ sowie als Mittelhochdeutsches Handwörterbuch konzipierte neue Wörterbuch wurde dann von Matthias Lexer ausgearbeitet und erschien in drei umfangreichen Bänden von 1872 bis 1878. Bei diesem 1878 abgeschlossenen Wörterbuch blieb es dann auch, obwohl immmer mehr neue Texte des Mittelhochdeutschen erschlossen wurden, vor allem in der großen Editionsreihe der Deutschen Texte des Mittelalters (DTM), die von der Preußischen Akademie kurz nach der Jahrhundertwende etabliert wurde und noch heute besteht.

Die Situation auf dem Gebiet der mittelhochdeutschen Lexikographie war schon um 1900, als die Pläne für die DTM geschmiedet wurden, so prekär, daß die Editionen der Reihe mit Glossaren versehen wurden, in denen systematisch alles nachgesammelt wurde, was in Lexers Handwörterbuch fehlte.

Erst 1992 trat eine gewisse Besserung auf dem Gebiet der mittelhochdeutschen Lexikographie ein, als eine Gruppe von Trierer Altgermanisten das in den Glossaren zu den Editionen Nachgesammelte in einem Findebuch zum mittelhochdeutschen Wortschatz vereinigte (3). Das Findebuch ist kein selbständiges Wörterbuch, sondern weist nur den Weg zu den Glossaren. Es hält sich im Hinblick auf seine Quellengrundlage aber an die neuen Periodengrenzen des Mittelhochdeutschen von 1050-1350.

Mit dem Findebuch wurde eine wesentliche Vorarbeit geleistet für das Projekt eines neuen Mittelhochdeutschen Wörterbuchs, an dem seit 1994 an zwei von der Deutschen Forschungsgemeinschaft (DFG) geförderten Arbeitsstellen in Trier und Göttingen gearbeitet wird. Das Projekt wurde von Anfang an von den Akademien der Wissenschaften in Mainz und Göttingen koordiniert und soll nach sechsjähriger DFG-Förderung im Jahre 2000 von den beiden Akademien unter ihre Langfristvorhaben aufgenommen werden.

Das neue Wörterbuch sollte von vornherein voll und ganz auf EDV-Basis erstellt werden. Auf der Grundlage eines maschinenlesbaren Textarchivs als der hauptsächlichen Quellenbasis sollte durch geeignete Programme, deren Grundbausteine Paul Sappler (Tübingen) zur Verfügung gestellt hatte, ein elektronisches Belegarchiv gewonnen werden, das für den späteren Artikelautor die Belege für die einzelnen Wortartikel liefert.

Die Quellenbasis des neuen Wörterbuches besteht aus einem Corpus philologisch gesicherter Texte aller Textsorten des Deutschen aus der bereits für das Findebuch maßgebenden Periode von 1050-1350. Da eine vollständige lexikographische Erschließung der Quellen des Mittelhochdeutschen wegen des großen Umfangs nicht möglich ist, wurden die 75 Texte, die zur Zeit den Kern des Quellencorpus bilden, in drei Gruppen eingeteilt, die nach verschiedenen Verfahren unterschiedlich weitgehend lexikographisch erschlossen werden.

Nach dem Verfahren A wird eine Kerngruppe von 18 Quellentexten vollständig lemmatisiert, also einschließlich der hochfrequenten Teile des Wortschatzes wie Pronomina, Konjunktionen und Präpositionen, der Synsemantica also; die einem Lemma zugeordneten Belege werden in das Belegarchiv eingebracht.

Nach dem Verfahren B wird eine Gruppe von 21 Quellentexten weniger intensiv ausgewertet; die hochfrequenten Teile des Wortschatzes werden nur ganz ausnahmsweise noch berücksichtigt; im wesentlichen beschränkt sich die Erschließung dieser Texte auf die Autosemantica, also die Nomina und Verben.

Nach dem Verfahren C wird die Restgruppe des Quellencorpus ausgewertet. Dazu gehören all jene Texte, für welche aufgrund von Ausgabenglossaren, Wörterbüchern, Indices und Konkordanzen eine gezielte Belegauswahl möglich ist. Ein großer Teil der Quellen des Findebuchs gehört also hierher. Die lexikographische Erschließungsarbeit, die zum Beispiel die Editoren durch die Ausarbeitung von Glossaren geleistet haben, wird gleichsam als Vorarbeit zum neuen Wörterbuch betrachtet und entlastet das Arbeitsprogramm für das Vorhaben, das nach der durch die DFG geförderten Vorlaufphase nach möglichst 20 Jahren mit nur einem halben Dutzend Mitarbeitern vollständig ausgearbeitet vorliegen und in vier Bänden publiziert werden soll.

Nachdem nun der Rahmen und Hintergrund für das neue mittelhochdeutsche Wörterbuch etwas näher charakterisiert ist, sei das Verfahren der Beleggewinnung vorgestellt.

Im herkömmlichen lexikographischen Arbeitsprozeß ist das Ergebnis der Vorbereitungsphase, in der sich das Projekt befindet, ein Belegarchiv, das durch Exzerption der Quellentexte, die Verzettelung der Exzerpte und ihre Lemmatisierung zustandekommt. Je nach der Qualität der Exzerption und dem Aufwand, den man dabei treiben kann, werden die Exzerpte bereits entsprechend den Richtlinien des Wörterbuchs eingerichtet und mit den zusätzlichen Erläuterungen und Angaben versehen, die ein späterer Artikelbearbeiter benötigt, der nicht selbst erneut sämtliche Belege in den Quellen nachschlagen soll. Als aktuelles Beipiel für die Erarbeitung eines Belegarchivs nach dieser Methode und mit dem erklärten Ziel, den Artikelbearbeitern den Griff zu den Quellen weitgehend zu ersparen, sei die Heidelberger Zentralexzerption für das Frühneuhochdeutsche Wörterbuch genannt, die kurz vor dem Abschluß steht (4).

Für das Mittelhochdeutsche Wörterbuch wird kein Zettelarchiv mehr angelegt. Als das Vorhaben Anfang der 90er Jahre konzipiert wurde, war es von vornherein klar, daß das Unternehmen so weit wie möglich auf EDV-Basis durchgeführt werden sollte. Nicht so deutlich waren zunächst die Möglichkeiten einer tiefergehenden Rationalisierung und Umstrukturierung der herkömmlichen lexikographischen Arbeitsabläufe, die mit dem konsequenten Einsatz der EDV für Wörterbuchzwecke verbunden sein können. Sie sind Paul Sappler zu verdanken, der für sein Tristan-Wörterbuch ein Programmsystem auf der Grundlage von TUSTEP entwickelt hat, das eine denkbar effektive halbautomatische Lemmatisierung der Quellentexte ermöglicht. Der Kerngedanke dieses Verfahrens besteht darin, daß ein selbständiges, das heißt von den Quellentexten isoliertes Belegarchiv nicht vorgesehen ist. Das Belegmaterial für einen Wörterbuchartikel wird den künftigen Bearbeitern also nicht in einem elektronischen Äquivalent des herkömmlichen Zettelkastens bereitgestellt, sondern aus den Quellentexten selbst herausgezogen, wenn ein Artikel bearbeitet werden soll. Dieses Konzept hat gegenüber der traditionellen Art der Materialbereitstellung den entscheidenden Vorteil, daß eine Reihe von zeitraubenden und fehlerträchtigen Eingriffen in die Quellentexte entfallen, die herkömmlich mit der Exzerption, das heißt mit der Reproduktion von aus ihrem Kontext mehr oder weniger isolierten Quellenausschnitten, verbunden waren.

Die Grundlage dieser neuen Art der Materialbereitstellung bilden die maschinenlesbaren Texte des Quellencorpus einerseits und eine lemmatisierte Wortformenliste (das intern sogenannte "Gerüst") andererseits.

Bei der Herstellung der maschinenlesbaren Fassungen der Quellentexte wird weitestgehend "ausgabendiplomatisch" verfahren, d.h. die Quellentexte werden unverändert so wiedergegeben, wie sie in den zugrundeliegenden Ausgaben erscheinen. Die Referenzen auf die Ausgaben werden in der TUSTEP-Seiten-Zeilennummer ausgedrückt, die etwas antiquiert erscheinen mag, sich aber für die rekursive Bearbeitung der Quellentexte als sicher und komfortabel zugleich erwiesen hat.

Die lexikographische Auszeichnung der Quellentexte bezieht sich ausschließlich auf einzelstellenspezifische Informationen; die allgemeinen, stellenunabhängigen Informationen enthält das Gerüst (s.u.).

Die einzelstellenbezogene Auszeichnung der Quellentexte ist mittels dreier Typen von Markierungen festgehalten, die jeweils unterschiedliche Funktion haben: Markierungen, welche die automatische Lemmatisierung steuern; Markierungen, die bestimmte Stellen entweder (negativ) aus dem Belegmaterial für einen Artikel ausschließen (dies ist für Verfahren B erwünscht) oder (positiv) gezielt ausgewählte Belege bezeichnen (Verfahren C).

Bei der Auszeichnung von Textwortformen für die Lemmatisierung ist vor allem zu nennen die Markierung von homographen Wortformen, von diskontinuierlich auftretenden Lexemen (trennbar zusammengesetzte Verben), von Eigennamen und von fremdsprachlichen (meist lateinischen) Passagen. Bei der Homographentrennung wird einer homographen Textwortform (z.B. maht) eine Zeichenfolge angehängt, durch die ihre Zugehörigkeit zu einem bestimmten Lemma während der Lemmatisierungsprozedur eindeutig festgestellt werden kann (maht&v wird dem Verb machen, maht&s dem Substantiv maht zugeordnet). Ähnlich wird bei der Markierung von diskontinuierlichen Lexemen, Eigennamen usw. verfahren. Wird ein Text nach dem oben vorgestellten Verfahren B bearbeitet, wird von einem Programm an jede unerwünschte Textwortform eine Markierung angebracht, die bewirkt, daß diese Belegstelle nicht in das Belegarchiv eingeht. Bei Bedarf kann diese Markierung an einzelnen Stellen getilgt werden, wodurch sie beim nächsten Durchgang durch das Verfahren in das Belegmaterial aufgenommen wird. Beim Verfahren C werden diejenigen Stellen mit einer Marke versehen, die in das Belegmaterial aufgenommen werden sollen; alle übrigen Belege bleiben unberücksichtigt. Marken dieser Art können ebenfalls jederzeit hinzugefügt oder getilgt werden. Außerdem können an Textwortformen Kommentare angehängt werden, die auf Besonderheiten dieser Belegstelle aufmerksam machen.

Im Gerüst werden alle einzelstellenunabhängigen Informationen festgehalten. Es enthält alle Lemmata aus Lexers Handwörterbuch und aus dem Trierer 'Findebuch', zusammen 79.048 Stichwörter; auf jedes Lemma folgen alle Wortformen, die diesem Lemma im aktuellen Arbeitsstand bereits zugeordnet wurden. Wortformen, die in den Quellentexten mit einem Homographentrenner versehen sind, erscheinen im Gerüst ebenfalls mit dieser Markierung. Daher ist es nötig, daß das System der Homographenmarkierung einheitlich und einzeltextübergreifend ist.

Die Lemmatisierung wird von einem Programm durchgeführt, das die Textwortformen der Eingabetexte mit der Lemmatisierungsinformation im Gerüst vergleicht. Durchläuft ein Text das Lemmatisierungsverfahren zum ersten Mal, wird ein Teil der Textwortformen im Gerüst bereits gefunden, weil die betreffenden Formen schon in früher bearbeiteten Texten vorkamen. Dann wird der neue Beleg entsprechend lemmatisiert. Andere Textwortformen fehlen im Gerüst und können daher nicht automatisch lemmatisiert werden. Für diese Wortformen erzeugt ein weiteres Programm Lemmatisierungsvorschläge, indem es versucht, eine der neuen Wortform möglichst ähnliche Form im Gerüst zu finden. Es fügt diesen Vorschlag als solchen gekennzeichnet in das Gerüst ein, wodurch das Gerüst mit jedem neu hinzukommenden Text weiter anwächst und die Lemmatisierungsqualität für zukünftige Lemmatisierungsläufe gesteigert wird. Die Vorschläge des Programms sollen vom Bearbeiter im Gerüst begutachtet und gegebenenfalls korrigiert werden. Durchläuft ein Text das Verfahren zum wiederholten Mal, z.B. nachdem im Text weitere Auszeichnungen (Homographen usw.) angebracht wurden oder nachdem die Lemmatisierungsvorschläge im Gerüst bearbeitet wurden, dann werden alle Textwortformen im Gerüst gefunden und entsprechend lemmatisiert.

Eines der Ergebnisse des Lemmatisierungslaufs ist ein lemmatisierter Index, in dem alle Belegstellen der Quellentexte ihren Lemmata zugeordnet sind. Aus dem Index kann unter Hinzuziehung einer beliebigen Kontextmenge die lemmatisierte Konkordanz gewonnen werden. Diese KWIC-Konkordanz ist unterhalb der Lemmaebene alphabetisch nach Wortformen geordnet. Sie repräsentiert das Belegarchiv zu einem gewissen Zeitpunkt; wenn ein neuer Text in das Verfahren eingeführt oder in den Texten oder im Gerüst etwas geändert wurde, dann kann das gesamte Belegmaterial durch das hier beschriebene Verfahren neu erhoben werden. Bislang wurden dreizehn Texte in dieser Weise bearbeitet, wodurch eine Belegsammlung von 611.567 Belegen für 10.247 Lemmata erzeugt werden kann.

Liegt das Belegmaterial den Bearbeitern in Form einer Konkordanz vor, können sie daraus schrittweise Artikel erarbeiten, indem sie Gliederungskommentare einsetzen, Belege oder Belegstellen zitieren, anordnen und kommentieren. Dieser Arbeitsgang ist integriert in das rekursive Verfahren der Materialbereitstellung: Es ist also möglich, die Ergebnisse der Artikelarbeit für künftige Konkordanzen festzuhalten und neues Belegmaterial aus weiteren bearbeiteten Texten zu einem entstehenden Artikel hinzuzufügen. Für die Artikelarbeit stehen Programme zur Verfügung, die einerseits die erwünschte Freiheit bei der Artikelgestaltung gewähren; andererseits sind Sicherungen eingebaut, die verhindern, daß unerwünschte Änderungen z.B. der Referenz oder des im Hintergrund als Kontrolle mitgeführten "ausgabendiplomatischen" Quellentextes vorgenommen werden. Das spezielle Programmpaket, das diese letzte Phase des lexikographischen Arbeitsprozesses bis hin zum Satz des fertigen Artikels unterstützt, ist bereits an anderer Stelle detailliert und anschaulich beschrieben worden (5).

Anmerkungen:

¹ Vgl. Literary and Linguistic Computing, vol. 9, 1994, pp. 173-180. zurück

² Zur Situation der deutschen historischen Lexikographie vgl. Hartmut Schmidt: Plädoyer für eine moderne korpusbezogene deutsche Wortschatzforschung. In: Zeitschrift für Literaturwissenschaft und Linguistik 27, Heft 106, 1997, S. 19-29. zurück

³ Vgl. Literary and Linguistic Computing, vol. 8, 1993, pp. 293-295. zurück

⁴ Vgl. Ingrid Lemberg: Die Belegexzerption zu historischen Wörterbüchern am Beispiel des Frühneuhochdeutschen Wörterbuches und des Deutschen Rechtswörterbuches. In: Wörterbücher in der Diskussion II. Vorträge aus dem Heidelberger Lexikographischen Kolloquium. Hrsg.v. Herbert Ernst Wiegand (Lexicographica. Series maior 70), Tübingen 1996, S. 83-102. zurück

⁵ Paul Sappler, Wolfram Schneider-Lastin: Ein Wörterbuch zu Gottfrieds 'Tristan'. In: Maschinelle Verarbeitung altdeutscher Texte IV. Beiträge zum Vierten Internationalen Symposion. Trier 28. Februar bis 2. März 1988. Hrsg.v. Kurt Gärtner, Paul Sappler und Michael Trauth, Tübingen (Niemeyer) 1991, S. 19-28.

aus: Protokoll des 70. Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften am 28. Juni 1997