Neben dem Grimmschen Wörterbuch, das detaillierter den deutschen Wortschatz erst von 1450 an dokumentiert, gibt es für die älteren Perioden der deutschen Sprach- und Literaturgeschichte umfassender angelegte Sprachstadienwörterbücher. Die Sprachstadien oder Perioden des Deutschen teilte man im 19. Jahrhundert, als die ersten großen Wörterbücher für das ältere Deutsch ausgearbeitet wurden, noch etwas anders ein als heute; in der Regel folgte man einer Dreiteilung:
bis 1100 Althochdeutsch
bis 1500 Mittelhochdeutsch
ab 1500 Neuhochdeutsch.
Heute bevorzugt man statt der Dreiteilung eine Vierteilung:
bis 1050 Althochdeutsch
bis 1350 Mittelhochdeutsch
bis 1750 Frühneuhochdeutsch
ab 1750 Neuhochdeutsch.
Die umfassende lexikographische Erschließung des Mittelhochdeutschen in den alten Periodengrenzen von 1100 bis 1500 wurde durch zwei große mittelhochdeutsche Wörterbücher im 19. Jahrhundert vorgenommen. Zuerst erschien das von G.F. Benecke konzipierte und von Wilhelm Müller und Friedrich Zarncke (= BMZ) ausgearbeitete vierbändige Mittelhochdeutsche Wörterbuch, 1854-62. Die Makrostruktur des BMZ bilden die Wortstämme, die als Hauptlemmata angesetzt sind; unter diesen sind dann alle Glieder der zu den Stämmen gehörenden Wortfamilien mit Unterartikeln angeordnet. Für die Mikrostruktur der Haupt- und Unterartikel von Verben ist die Gliederung nach syntaktischen Prinzipien charakteristisch. Die nicht strikt alphabetische Anordnung erwies sich bald als unbequem; daher faßte der Verleger des Mittelhochdeutschen Wörterbuches, Salomon Hirzel, sehr bald den Plan, ein strikt alphabetisch geordnetes Handwörterbuch ausarbeiten zu lassen, das als alphabetischer Index und zugleich auch als Supplement zu dem Vorgängerwörterbuch dienen sollte. Die Supplementfunktion des neuen Wörterbuchs sollte die recht einseitige Quellengrundlage des BMZ kompensieren, dessen Belege vor allem aus großen literarischen Werke der deutschen Literatur um 1200, allen voran aus dem Parzival Wolframs von Eschenbach, stammten. Das als alphabetischer Index und Supplement zum BMZ sowie als Mittelhochdeutsches Handwörterbuch konzipierte neue Wörterbuch wurde dann von Matthias Lexer ausgearbeitet und erschien in drei umfangreichen Bänden von 1872 bis 1878. Bei diesem 1878 abgeschlossenen Wörterbuch blieb es dann auch, obwohl immmer mehr neue Texte des Mittelhochdeutschen erschlossen wurden, vor allem in der großen Editionsreihe der Deutschen Texte des Mittelalters (DTM), die von der Preußischen Akademie kurz nach der Jahrhundertwende etabliert wurde und noch heute besteht.
Die Situation auf dem Gebiet der mittelhochdeutschen Lexikographie war schon um 1900, als die Pläne für die DTM geschmiedet wurden, so prekär, daß die Editionen der Reihe mit Glossaren versehen wurden, in denen systematisch alles nachgesammelt wurde, was in Lexers Handwörterbuch fehlte.
Erst 1992 trat eine gewisse Besserung auf dem Gebiet der mittelhochdeutschen Lexikographie ein, als eine Gruppe von Trierer Altgermanisten das in den Glossaren zu den Editionen Nachgesammelte in einem Findebuch zum mittelhochdeutschen Wortschatz vereinigte(3). Das Findebuch ist kein selbständiges Wörterbuch, sondern weist nur den Weg zu den Glossaren. Es hält sich im Hinblick auf seine Quellengrundlage aber an die neuen Periodengrenzen des Mittelhochdeutschen von 1050-1350.
Mit dem Findebuch wurde eine wesentliche Vorarbeit geleistet für das Projekt eines neuen Mittelhochdeutschen Wörterbuchs, an dem seit 1994 an zwei von der Deutschen Forschungsgemeinschaft (DFG) geförderten Arbeitsstellen in Trier und Göttingen gearbeitet wird. Das Projekt wurde von Anfang an von den Akademien der Wissenschaften in Mainz und Göttingen koordiniert und soll nach sechsjähriger DFG-Förderung im Jahre 2000 von den beiden Akademien unter ihre Langfristvorhaben aufgenommen werden.
Das neue Wörterbuch sollte von vornherein voll und ganz auf EDV-Basis erstellt werden. Auf der Grundlage eines maschinenlesbaren Textarchivs als der hauptsächlichen Quellenbasis sollte durch geeignete Programme, deren Grundbausteine Paul Sappler (Tübingen) zur Verfügung gestellt hatte, ein elektronisches Belegarchiv gewonnen werden, das für den späteren Artikelautor die Belege für die einzelnen Wortartikel liefert.
Die Quellenbasis des neuen Wörterbuches besteht aus einem Corpus philologisch gesicherter Texte aller Textsorten des Deutschen aus der bereits für das Findebuch maßgebenden Periode von 1050-1350. Da eine vollständige lexikographische Erschließung der Quellen des Mittelhochdeutschen wegen des großen Umfangs nicht möglich ist, wurden die 75 Texte, die zur Zeit den Kern des Quellencorpus bilden, in drei Gruppen eingeteilt, die nach verschiedenen Verfahren unterschiedlich weitgehend lexikographisch erschlossen werden.
Nach dem Verfahren A wird eine Kerngruppe von 18 Quellentexten vollständig lemmatisiert, also einschließlich der hochfrequenten Teile des Wortschatzes wie Pronomina, Konjunktionen und Präpositionen, der Synsemantica also; die einem Lemma zugeordneten Belege werden in das Belegarchiv eingebracht.
Nach dem Verfahren B wird eine Gruppe von 21 Quellentexten weniger intensiv ausgewertet; die hochfrequenten Teile des Wortschatzes werden nur ganz ausnahmsweise noch berücksichtigt; im wesentlichen beschränkt sich die Erschließung dieser Texte auf die Autosemantica, also die Nomina und Verben.
Nach dem Verfahren C wird die Restgruppe des Quellencorpus ausgewertet. Dazu gehören all jene Texte, für welche aufgrund von Ausgabenglossaren, Wörterbüchern, Indices und Konkordanzen eine gezielte Belegauswahl möglich ist. Ein großer Teil der Quellen des Findebuchs gehört also hierher. Die lexikographische Erschließungsarbeit, die zum Beispiel die Editoren durch die Ausarbeitung von Glossaren geleistet haben, wird gleichsam als Vorarbeit zum neuen Wörterbuch betrachtet und entlastet das Arbeitsprogramm für das Vorhaben, das nach der durch die DFG geförderten Vorlaufphase nach möglichst 20 Jahren mit nur einem halben Dutzend Mitarbeitern vollständig ausgearbeitet vorliegen und in vier Bänden publiziert werden soll.
Nachdem nun der Rahmen und Hintergrund für das neue mittelhochdeutsche Wörterbuch etwas näher charakterisiert ist, sei das Verfahren der Beleggewinnung vorgestellt.
Im herkömmlichen lexikographischen Arbeitsprozeß ist das Ergebnis der Vorbereitungsphase, in der sich das Projekt befindet, ein Belegarchiv, das durch Exzerption der Quellentexte, die Verzettelung der Exzerpte und ihre Lemmatisierung zustandekommt. Je nach der Qualität der Exzerption und dem Aufwand, den man dabei treiben kann, werden die Exzerpte bereits entsprechend den Richtlinien des Wörterbuchs eingerichtet und mit den zusätzlichen Erläuterungen und Angaben versehen, die ein späterer Artikelbearbeiter benötigt, der nicht selbst erneut sämtliche Belege in den Quellen nachschlagen soll. Als aktuelles Beipiel für die Erarbeitung eines Belegarchivs nach dieser Methode und mit dem erklärten Ziel, den Artikelbearbeitern den Griff zu den Quellen weitgehend zu ersparen, sei die Heidelberger Zentralexzerption für das Frühneuhochdeutsche Wörterbuch genannt, die kurz vor dem Abschluß steht(4).
Für das Mittelhochdeutsche Wörterbuch wird kein Zettelarchiv mehr angelegt. Als das Vorhaben Anfang der 90er Jahre konzipiert wurde, war es von vornherein klar, daß das Unternehmen so weit wie möglich auf EDV-Basis durchgeführt werden sollte. Nicht so deutlich waren zunächst die Möglichkeiten einer tiefergehenden Rationalisierung und Umstrukturierung der herkömmlichen lexikographischen Arbeitsabläufe, die mit dem konsequenten Einsatz der EDV für Wörterbuchzwecke verbunden sein können. Sie sind Paul Sappler zu verdanken, der für sein Tristan-Wörterbuch ein Programmsystem auf der Grundlage von TUSTEP entwickelt hat, das eine denkbar effektive halbautomatische Lemmatisierung der Quellentexte ermöglicht. Der Kerngedanke dieses Verfahrens besteht darin, daß ein selbständiges, das heißt von den Quellentexten isoliertes Belegarchiv nicht vorgesehen ist. Das Belegmaterial für einen Wörterbuchartikel wird den künftigen Bearbeitern also nicht in einem elektronischen Äquivalent des herkömmlichen Zettelkastens bereitgestellt, sondern aus den Quellentexten selbst herausgezogen, wenn ein Artikel bearbeitet werden soll. Dieses Konzept hat gegenüber der traditionellen Art der Materialbereitstellung den entscheidenden Vorteil, daß eine Reihe von zeitraubenden und fehlerträchtigen Eingriffen in die Quellentexte entfallen, die herkömmlich mit der Exzerption, das heißt mit der Reproduktion von aus ihrem Kontext mehr oder weniger isolierten Quellenausschnitten, verbunden waren.
Die Grundlage dieser neuen Art der Materialbereitstellung bilden die maschinenlesbaren Texte des Quellencorpus einerseits und eine lemmatisierte Wortformenliste (das intern sogenannte "Gerüst") andererseits.
Bei der Herstellung der maschinenlesbaren Fassungen der Quellentexte wird weitestgehend "ausgabendiplomatisch" verfahren, d.h. die Quellentexte werden unverändert so wiedergegeben, wie sie in den zugrundeliegenden Ausgaben erscheinen. Die Referenzen auf die Ausgaben werden in der TUSTEP-Seiten-Zeilennummer ausgedrückt, die etwas antiquiert erscheinen mag, sich aber für die rekursive Bearbeitung der Quellentexte als sicher und komfortabel zugleich erwiesen hat.
Die lexikographische Auszeichnung der Quellentexte bezieht sich ausschließlich auf einzelstellenspezifische Informationen; die allgemeinen, stellenunabhängigen Informationen enthält das Gerüst (s.u.).
Die einzelstellenbezogene Auszeichnung der Quellentexte ist mittels dreier Typen von Markierungen festgehalten, die jeweils unterschiedliche Funktion haben: Markierungen, welche die automatische Lemmatisierung steuern; Markierungen, die bestimmte Stellen entweder (negativ) aus dem Belegmaterial für einen Artikel ausschließen (dies ist für Verfahren B erwünscht) oder (positiv) gezielt ausgewählte Belege bezeichnen (Verfahren C).
Bei der Auszeichnung von Textwortformen für die Lemmatisierung ist vor allem zu nennen die Markierung von homographen Wortformen, von diskontinuierlich auftretenden Lexemen (trennbar zusammengesetzte Verben), von Eigennamen und von fremdsprachlichen (meist lateinischen) Passagen. Bei der Homographentrennung wird einer homographen Textwortform (z.B. maht) eine Zeichenfolge angehängt, durch die ihre Zugehörigkeit zu einem bestimmten Lemma während der Lemmatisierungsprozedur eindeutig festgestellt werden kann (maht&v wird dem Verb machen, maht&s dem Substantiv maht zugeordnet). Ähnlich wird bei der Markierung von diskontinuierlichen Lexemen, Eigennamen usw. verfahren. Wird ein Text nach dem oben vorgestellten Verfahren B bearbeitet, wird von einem Programm an jede unerwünschte Textwortform eine Markierung angebracht, die bewirkt, daß diese Belegstelle nicht in das Belegarchiv eingeht. Bei Bedarf kann diese Markierung an einzelnen Stellen getilgt werden, wodurch sie beim nächsten Durchgang durch das Verfahren in das Belegmaterial aufgenommen wird. Beim Verfahren C werden diejenigen Stellen mit einer Marke versehen, die in das Belegmaterial aufgenommen werden sollen; alle übrigen Belege bleiben unberücksichtigt. Marken dieser Art können ebenfalls jederzeit hinzugefügt oder getilgt werden. Außerdem können an Textwortformen Kommentare angehängt werden, die auf Besonderheiten dieser Belegstelle aufmerksam machen.
Im Gerüst werden alle einzelstellenunabhängigen Informationen festgehalten. Es enthält alle Lemmata aus Lexers Handwörterbuch und aus dem Trierer 'Findebuch', zusammen 79.048 Stichwörter; auf jedes Lemma folgen alle Wortformen, die diesem Lemma im aktuellen Arbeitsstand bereits zugeordnet wurden. Wortformen, die in den Quellentexten mit einem Homographentrenner versehen sind, erscheinen im Gerüst ebenfalls mit dieser Markierung. Daher ist es nötig, daß das System der Homographenmarkierung einheitlich und einzeltextübergreifend ist.
Die Lemmatisierung wird von einem Programm durchgeführt, das die Textwortformen der Eingabetexte mit der Lemmatisierungsinformation im Gerüst vergleicht. Durchläuft ein Text das Lemmatisierungsverfahren zum ersten Mal, wird ein Teil der Textwortformen im Gerüst bereits gefunden, weil die betreffenden Formen schon in früher bearbeiteten Texten vorkamen. Dann wird der neue Beleg entsprechend lemmatisiert. Andere Textwortformen fehlen im Gerüst und können daher nicht automatisch lemmatisiert werden. Für diese Wortformen erzeugt ein weiteres Programm Lemmatisierungsvorschläge, indem es versucht, eine der neuen Wortform möglichst ähnliche Form im Gerüst zu finden. Es fügt diesen Vorschlag als solchen gekennzeichnet in das Gerüst ein, wodurch das Gerüst mit jedem neu hinzukommenden Text weiter anwächst und die Lemmatisierungsqualität für zukünftige Lemmatisierungsläufe gesteigert wird. Die Vorschläge des Programms sollen vom Bearbeiter im Gerüst begutachtet und gegebenenfalls korrigiert werden. Durchläuft ein Text das Verfahren zum wiederholten Mal, z.B. nachdem im Text weitere Auszeichnungen (Homographen usw.) angebracht wurden oder nachdem die Lemmatisierungsvorschläge im Gerüst bearbeitet wurden, dann werden alle Textwortformen im Gerüst gefunden und entsprechend lemmatisiert.
Eines der Ergebnisse des Lemmatisierungslaufs ist ein lemmatisierter Index, in dem alle Belegstellen der Quellentexte ihren Lemmata zugeordnet sind. Aus dem Index kann unter Hinzuziehung einer beliebigen Kontextmenge die lemmatisierte Konkordanz gewonnen werden. Diese KWIC-Konkordanz ist unterhalb der Lemmaebene alphabetisch nach Wortformen geordnet. Sie repräsentiert das Belegarchiv zu einem gewissen Zeitpunkt; wenn ein neuer Text in das Verfahren eingeführt oder in den Texten oder im Gerüst etwas geändert wurde, dann kann das gesamte Belegmaterial durch das hier beschriebene Verfahren neu erhoben werden. Bislang wurden dreizehn Texte in dieser Weise bearbeitet, wodurch eine Belegsammlung von 611.567 Belegen für 10.247 Lemmata erzeugt werden kann.
Liegt das Belegmaterial den Bearbeitern in Form einer Konkordanz vor, können sie daraus schrittweise Artikel erarbeiten, indem sie Gliederungskommentare einsetzen, Belege oder Belegstellen zitieren, anordnen und kommentieren. Dieser Arbeitsgang ist integriert in das rekursive Verfahren der Materialbereitstellung: Es ist also möglich, die Ergebnisse der Artikelarbeit für künftige Konkordanzen festzuhalten und neues Belegmaterial aus weiteren bearbeiteten Texten zu einem entstehenden Artikel hinzuzufügen. Für die Artikelarbeit stehen Programme zur Verfügung, die einerseits die erwünschte Freiheit bei der Artikelgestaltung gewähren; andererseits sind Sicherungen eingebaut, die verhindern, daß unerwünschte Änderungen z.B. der Referenz oder des im Hintergrund als Kontrolle mitgeführten "ausgabendiplomatischen" Quellentextes vorgenommen werden. Das spezielle Programmpaket, das diese letzte Phase des lexikographischen Arbeitsprozesses bis hin zum Satz des fertigen Artikels unterstützt, ist bereits an anderer Stelle detailliert und anschaulich beschrieben worden (5).
2 Zur Situation der deutschen historischen Lexikographie vgl. Hartmut Schmidt: Plädoyer für eine moderne korpusbezogene deutsche Wortschatzforschung. In: Zeitschrift für Literaturwissenschaft und Linguistik 27, Heft 106, 1997, S. 19-29. zurück
3 Vgl. Literary and Linguistic Computing, vol. 8, 1993, pp. 293-295. zurück
4 Vgl. Ingrid Lemberg: Die Belegexzerption zu historischen Wörterbüchern am Beispiel des Frühneuhochdeutschen Wörterbuches und des Deutschen Rechtswörterbuches. In: Wörterbücher in der Diskussion II. Vorträge aus dem Heidelberger Lexikographischen Kolloquium. Hrsg.v. Herbert Ernst Wiegand (Lexicographica. Series maior 70), Tübingen 1996, S. 83-102. zurück
5 Paul Sappler, Wolfram
Schneider-Lastin: Ein Wörterbuch zu Gottfrieds 'Tristan'. In: Maschinelle
Verarbeitung altdeutscher Texte IV. Beiträge zum Vierten Internationalen
Symposion. Trier 28. Februar bis 2. März 1988. Hrsg.v. Kurt Gärtner, Paul
Sappler und Michael Trauth, Tübingen (Niemeyer) 1991, S. 19-28.
aus:
Protokoll des 70. Kolloquiums
über die Anwendung
der EDV in den Geisteswissenschaften am 28. Juni 1997