Die beiden im Titel genannten Begriffe 'Personenforschung' und 'Sprachforschung' weisen auf zwei geisteswissenschaftliche Disziplinen hin, die innerhalb des im folgenden zu erläuternden Forschungsprojektes interdisziplinär zusammenwirken: die historische Personenforschung, d.h. die Bemühung um die Personen- und Sozialgeschichte des Mittelalters, einerseits und die philologische Namen- und Sprachforschung andererseits. Diese beiden Disziplinen werden innerhalb des Projekts in der Regel von Fachvertretern - von Historikern auf der einen und von Sprachwissenschaftlern (Germanisten oder Romanisten) auf der anderen Seite - vertreten. Im folgenden sollen beide Aspekte berücksichtigt und dabei - dem Rahmen dieses Kolloquiums entsprechend - der Einsatz der EDV erläutert werden, ohne den - das kann rückblickend mit Nachdruck gesagt werden - das interdisziplinäre Forschungsprojekt nicht den heutigen Stand erreicht hätte.
2. Zur Geschichte des Projekts
Ausgehend von den Erfahrungen des sogenannten "Freiburger Arbeitskreises", der sich Ende der 50er und Anfang der 60er Jahre unter der Leitung von Gerd Tellenbach unter anderem mit "Studien und Vorarbeiten zur Geschichte des großfränkischen und frühdeutschen Adels" (so der Titel eines 1957 erschienenen Sammelbandes) befaßte und innerhalb dessen man mit der Verzettelung wichtiger innerhalb der frühmittelalterlichen Quellen genannter Personen begonnen hatte, begründete Karl Schmid nach seiner Berufung nach Münster/Westf. im Jahre 1966 innerhalb des dort eingerichteten Sonderforschungsbereichs 7 "Mittelalterforschung" das Teilprojekt "Personen und Gemeinschaften". In interdisziplinärer Zusammenarbeit von zehn Mitarbeitern entstand in diesem Teilprojekt unter der Leitung von Karl Schmid vor allem das mehrbändige Werk "Die Klostergemeinschaft von Fulda im früheren Mittelalter" (2), das 1978 erschienen ist. Die Leitung des Projekts ging 1974 an Joachim Wollasch über, da Karl Schmid ein Jahr zuvor nach Freiburg berufen worden war, wo die Forschungen seitdem ebenfalls fortgeführt werden. Die weiteren in Gang befindlichen und geplanten Arbeitsvorhaben und Publikationen sowie die im Projektzusammenhang tätigen Mitarbeiter sind in der von Karl Schmid und Joachim Wollasch 1975 gemeinsam herausgegebenen Programmschrift 'Societas et Fraternitas' (1) genannt, dessen Untertitel 'Begründung eines kommentierten Quellenwerkes zur Erforschung von Personen und Personengruppen' die Zielsetzung deutlich macht.
3. Die Quellen
Die Namen der mittelalterlichen Personen sind in den überkommenen Quellen meist innerhalb von unterschiedlich zusammengesetzten Personengruppeneinträgen überliefert. Dabei kann es sich um Verwandtschaftsgruppen, Zeugenkreise, Bischofsreihen, Herrscherlisten, Mönchskonvente, Klerikergemeinschaften, Pilgergruppen usw. handeln. Solche Personengruppen sind in großer Zahl in Urkunden, Sukzessionslisten, Diptychen, Hörigenverzeichnissen, vor allem aber in Nekrologien und Verbrüderungsbüchern überliefert.
4. Die Aufnahme der Belege
Die Aufnahme der Namenbelege mitsamt den verschiedentlich mitüberlieferten Angaben über Amt, Stand, verwandtschaftliche oder genossenschaftliche Zugehörigkeit, Alter, Lebenszeit und Herkunft der eingetragenen Personen usw. erfolgte innerhalb des Projekts seit Ende der sechziger Jahre auf elektronisch auswertbare Datenträger. Vom Einsatz der EDV war zu erhoffen, daß Personen, deren Namen in verschiedenen Quellen begegnen, anhand der aufgenommenen Angaben zur Person als identisch erkannt werden können. Denn das menschliche Gedächtnis war, wie sich immer wieder zeigte, angesichts der unüberschaubaren Materialfülle überfordert: Das "Reichenauer Verbrüderungsbuch" beispielsweise weist allein 38.000 Personennameneinträge auf.
5. Das Problem der Lemmatisierung
Während eine maschinelle Sortierung des Materials - inzwischen sind etwa 350.000 Personennameneinträge aufgenommen - nach Amt, Stand, Herkunft oder Datierung der eingetragenen Personen nun leicht durchführbar war, stellte sich die im Mittelalter unterschiedliche Schreibung der Namen einer maschinellen Personensuche und -identifizierung als Hindernis in den Weg: Berhtolf und Pertulfus etwa - möglicherweise Belege für ein und dieselbe Person - sind bei alphabetischer Sortierung im Speicher des Rechners durch Tausende von Belegen getrennt. Hier war die Namenforschung zu interdisziplinärer Mitarbeit aufgerufen: Um gleiche Namen trotz variierender Graphie als solche erkennen zu können, mußte jedem Namen ein 'Lemma' beigegeben werden, das bei allen namenkundlich übereinstimmenden Namen jeweils identisch ist. Da der Bestand der zur Namenbildung verwendeten Namenwörter sehr viel kleiner ist als die Zahl der daraus gebildeten mittelalterlichen Personennamen, erwies sich eine Segmentierung und anschließende Lemmatisierung als erfolgversprechend. In den genannten Beispielen Berhtolf und Pertulfus erhalten durch dieses Verfahren einerseits Berht- und Pert- das Lemma +berth, andererseits -olf und -ulf(us) das Lemma +wulf, so daß die Lemma-Information +berth-wulf für die beiden genannten Namenbelege identisch ist. Um eine Vorstellung von den Zahlenverhältnissen zu vermitteln: 799 Namenwort-Lemmata, denen 3.004 Namenwörter subsumiert sind, reichten aus, um die 38.872 Personennamenbelege der Klostergemeinschaft von Fulda (2,4) zu lemmatisieren. Das Lemmatisierungsprogramm, das zunächst für die IBM 360/50 in Münster in der Programmiersprache PL/1 formuliert war (5), ist inzwischen in Freiburg für die UNIVAC 1100/81 völlig neu erstellt worden.
6. Das Verfahren der maschinellen Lemmatisierung
Die maschinelle Lemmatisierung kann als Übersetzung der alt- und mittelhochdeutschen Laut- und Schreibvarianten in eine angesetzte germanische Form verstanden werden. Für die Übersetzung wird eine Namenform zunächst - wie oben unter 5. angedeutet - auf der morphologischen Ebene segmentiert. Den einzelnen Segmenten werden, wenn es sich um Namenwörter und Suffixe handelt, ihre germanischen Ansätze als Lemmata zugeordnet, deren Verkettung dann das Namenlemma zur vorgegebenen Namenform ist.
Um diesen Vorgang programmieren zu können, muß einerseits die Morphologie der mittelalterlichen Namen und andererseits ein Wörterbuch, das die möglichen Bestandteile dieser Namen enthält und ihrem germanischen Ansatz zuordnet, dem Rechner zur Verfügung gestellt werden.
Die Morphologie der Namen läßt sich leicht darstellen, wenn man etwa W für ein Namenwort, S für ein Suffix und F für ein Flexiv schreibt. Alle vorkommenden Namen lassen sich dann einer der Kompositionen W, WF, WS, WSF oder WWF zuordnen. Um damit auch beispielsweise lateinische oder hebräische Fremdnamen, für die ja andere Kompositionsgesetze gelten, zu erfassen, geht man so vor, daß man solche Fremdnamen als ein Namenwort in das Wörterbuch aufnimmt oder allenfalls in "Namenwort" + Flexiv segmentiert. Eine weitere Differenzierung der Morphologie bezüglich der möglichen Positionen von Namenwörtern und der Kongruenz von Namen und Flexiven ist in (8) dargestellt.
Im Wörterbuch sind alle Varianten, die in einem vorgegebenen Corpus belegt sind, ihrem jeweiligen Lemma zugeordnet. Bei den Lemmata sind Informationen über Deklination, Art (Namenwort, Suffix, Flexiv), Herkunft (z.B. lateinisch) und nach Möglichkeit das Geschlecht abgespeichert. Bei den Varianten sind gegebenenfalls eine abweichende Deklination, das Vorkommen in Kurzform, Erstglied oder Zweitglied und Angaben über die Häufigkeit der entsprechenden Positionen vermerkt.
Für die Segmentierung eines Namenbelegs wird zunächst das Wörterbuch nach Varianten durchsucht, die mit dessen Anfang übereinstimmen. Der Name wird dann jeweils zerlegt in betreffende Variante als ersten und einen zweiten Teil. Für den jeweils zweiten Teil wird die Wörterbuchsuche wiederholt. Dabei muß überprüft werden, ob die bisher vorgenommene Zerlegung noch mit einer in der Morphologie zugelassenen Struktur konform ist. Ist das nicht der Fall oder war die Wörterbuchsuche erfolglos, dann wird der entsprechende "Analysepfad" abgebrochen. Andernfalls wird auf jedem Pfad so lange fortgefahren, bis der letzte Teil der jeweiligen Zerlegung ganz als Variante im Wörterbuch gefunden wird.
Die maschinellen Lemmatisierungsergebnisse werden, in übersichtlicher Form gedruckt, vom Philologen bearbeitet. Dabei wird einerseits das Wörterbuch ergänzt und andererseits bei Mehrfachlösungen gegebenenfalls bestimmt, daß eine Namenform einem anderen vom Rechner gefundenen Namenlemma zuzuordnen ist. Danach wird die Lemmatisierung wiederholt, wobei alle Abweichungen vom vorhergehenden Durchgang auf dem Drucker protokolliert werden.
Die Programme wurden in der Programmiersprache SIMULA und teilweise auch in Assembler geschrieben. Ihre Effektivität wird dadurch belegt, daß beispielsweise die Lemmatisierung der ca. 38.200 Namenbelege des "Reichenauer Verbrüderungsbuches" nur etwas mehr als zwei Minuten CPU-Zeit benötigt.
7. Möglichkeiten der Auswertung des lemmatisierten Personennamenmaterials
Abschließend sei kurz auf die verschiedenartigen Möglichkeiten hingewiesen, das nach dem dargestellten Verfahren lemmatisierte Personennamenmaterial für personengeschichtliche, namenkundliche und sprachwissenschaftliche Fragestellungen auszuwerten:
Mit der Bereitstellung der Lemmaform zum überlieferten Namenbeleg
ist für den Historiker der entscheidende Schlüssel zur
Sortierung des umfangreichen Materials gefunden. Erst dadurch
ist es möglich, nach Personen 'gleichen Namens' zu fragen. Durch
die Kombination von verschiedenartigen Kriterien, wie beispielsweise
'gleicher Namen' + 'gleicher Titel' + 'gleicher Todestag'
ist nun eine ausreichende Differenzierungsmöglichkeit vorhanden,
die die maschinelle Suche nach identischen Personen in dem
gespeicherten
Datenmaterial erlaubt. Zur Herstellung eines geeigneten
Arbeitsinstruments für personengeschichtliche Forschungen
können die Namenzeugnisse aus verschiedenen Überlieferungen vom
Schnelldrucker in Form eines 'Parallelregisters' (6,7) so ausgegeben
werden, daß Personen mit gleichem Namen - und gegebenenfalls
mit gleichem Titel, Todestag, Herkunftsort usw. - in der
Darstellung nebeneinander erscheinen.
Von Anfang an aber hofften die Historiker, nicht nur identische
Personen im Gesamtmaterial aufspüren zu können, sondern auch
übereinstimmende oder zumindest teilweise übereinstimmende
Personengruppen
(Familien, Sippen, klerikale oder monastische Gemeinschaften
usw.). Es wäre dann möglich, für eine neu gefundene
Gruppe von Personen unbekannter Provenienz im Gesamtbestand von
350.000 Namenzeugnissen nach Entsprechungen zu suchen, um eine
womöglich übereinstimmende Namengruppe aufzuspüren. Dies darf
von einem sog. 'Gruppensuchprogramm' erwartet werden, das zur
Zeit in Freiburg entwickelt und erprobt wird.
Die Lemmatisierung der Personennamen durch die Analyse der diese bildenden Namenwörter, Suffixe und Flexive erlaubt nicht nur die verschiedenartigsten Häufigkeitsstatistiken der überkommenen Namen (Fremdnamen - germanische Namen; Frauennamen - Männernamen; zu- oder abnehmende Beliebtheit bestimmter "Mode"-Namen usw.), sondern auch der Namenwörter (Verwendung als Erstglied, Zweitglied und in eingliedrigen Bildungen; Variantenreichtum, Variantenhäufigkeit usw.), Suffixe (zu- oder abnehmende Tendenz im Gebrauch bestimmter Suffixe usw.) und Flexive (lat. Flexion - ahd. Flexion; starke - schwache Flexion bei Kurzformen usw.). Auch Untersuchungen zur Namenkombinatorik (Vermeidung der Alliteration von Erst- und Zweitglied, Häufigkeit und Vermeidung bestimmter Komposita) und zur unterschiedlichen Beliebtheit gewisser Namenformen (Kurzformen, Fremdnamen) bei den einzelnen gesellschaftlichen Gruppen (Hörige, Mönche, Adel) können an dem gespeicherten Material mit Hilfe einfacher Programme vorgenommen werden. Da die Aussagekraft solcher Namenstatistiken vom Umfang und von der zeitlichen Streuung des aufgenommenen Personennamenmaterials abhängt, sind nun erstmals gesicherte statistische Ergebnisse auf ausreichend breiter Basis zu erwarten, wie sie bislang ohne den Einsatz der EDV nicht erzielt werden konnten.
Für die sprachwissenschaftliche Erforschung des Althochdeutschen in seiner chronologischen Entwicklung und geographischen Verbreitung bietet das beschriebene Lemmatisierungsverfahren optimale Voraussetzungen. Denn in der lautlichen Differenz zwischen dem Lemma auf germanischer Sprachstufe und den überlieferten althochdeutschen Namenzeugnissen läßt sich die sprachgeschichtliche Entwicklung - auch in ihrer regional unterschiedlichen Ausprägung - ablesen. Die Realisierung des germanischen [langen] o in althochdeutscher Zeit läßt sich beispielsweise übersichtlich in einer chronologisch geordneten Tabelle aller Belege darstellen, deren Lemmaform ein [langes] o aufweist (*hroth-, *othal- usw.), so daß sich der Übergang o > uo/ua/oa in der Graphie zeitlich exakt bestimmen läßt. Eine geographisch geordnete Auflistung derselben Namenzeugnisse ermöglicht dagegen eine Übersicht über die regional eingrenzbare Verbreitung von uo, ua und oa. Auf einer Grundkarte, die die Orte mit althochdeutscher Personennamenüberlieferung enthält, ist sogar mit Hilfe eines vom Rechner gesteuerten Plottergerätes unmittelbar die Verbreitung der verschiedenen Diphthonge kartographisch darstellbar. Diese Grundkarte bietet ein erheblich engmaschigeres und zuverlässigeres Netz von Überlieferungsorten als die Karte der Orte, denen wir die wenigen erhaltenen Literaturdenkmäler des Althochdeutschen mit mehr oder weniger stichhaltigen Argumenten zuweisen. Der Ertrag für die Grammatik des Althochdeutschen dürfte jedenfalls nicht unerheblich sein, zumal sich die Namenzeugnisse häufig exakt datieren und lokalisieren lassen. Daß sich aufgrund der frühmittelalterlichen Personennamenüberlieferung - bei allen gebotenen methodischen Vorbehalten - sogar Anhaltspunkte für die sprachgeographische Zuordnung und zeitliche Fixierung der literarischen Denkmäler erarbeiten lassen, konnte am Beispiel der Überlieferung des Klosters Fulda bereits gezeigt werden.
(Die Kurzfassung des Referates wurde vom Referenten zur Verfügung gestellt.)