Protokoll des 19. Kolloquiums

Protokoll des 19. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 17. November 1979

Allgemeine Information

Wilhelm Ott eröffnete das 19. Kolloquium mit aktuellen Informationen, u.a. über das "3. Internationale Rundgespräch über Aufgaben und Methoden philosophischer Editionen" vom 3.-5. März 1979 in Tübingen.

Dieter Geuenich (Historisches Seminar der Universität Freiburg),
Alfred Lohr (Rechenzentrum der Universität Freiburg)

EDV-unterstützte Personen- und Sprachforschung aus mittelalterlichen Quellen

1. Vorbemerkung

Die beiden im Titel genannten Begriffe 'Personenforschung' und 'Sprachforschung' weisen auf zwei geisteswissenschaftliche Disziplinen hin, die innerhalb des im folgenden zu erläuternden Forschungsprojektes interdisziplinär zusammenwirken: die historische Personenforschung, d.h. die Bemühung um die Personen- und Sozialgeschichte des Mittelalters, einerseits und die philologische Namen- und Sprachforschung andererseits. Diese beiden Disziplinen werden innerhalb des Projekts in der Regel von Fachvertretern - von Historikern auf der einen und von Sprachwissenschaftlern (Germanisten oder Romanisten) auf der anderen Seite - vertreten. Im folgenden sollen beide Aspekte berücksichtigt und dabei - dem Rahmen dieses Kolloquiums entsprechend - der Einsatz der EDV erläutert werden, ohne den - das kann rückblickend mit Nachdruck gesagt werden - das interdisziplinäre Forschungsprojekt nicht den heutigen Stand erreicht hätte.

2. Zur Geschichte des Projekts

Ausgehend von den Erfahrungen des sogenannten "Freiburger Arbeitskreises", der sich Ende der 50er und Anfang der 60er Jahre unter der Leitung von Gerd Tellenbach unter anderem mit "Studien und Vorarbeiten zur Geschichte des großfränkischen und frühdeutschen Adels" (so der Titel eines 1957 erschienenen Sammelbandes) befaßte und innerhalb dessen man mit der Verzettelung wichtiger innerhalb der frühmittelalterlichen Quellen genannter Personen begonnen hatte, begründete Karl Schmid nach seiner Berufung nach Münster/Westf. im Jahre 1966 innerhalb des dort eingerichteten Sonderforschungsbereichs 7 "Mittelalterforschung" das Teilprojekt "Personen und Gemeinschaften". In interdisziplinärer Zusammenarbeit von zehn Mitarbeitern entstand in diesem Teilprojekt unter der Leitung von Karl Schmid vor allem das mehrbändige Werk "Die Klostergemeinschaft von Fulda im früheren Mittelalter" (2), das 1978 erschienen ist. Die Leitung des Projekts ging 1974 an Joachim Wollasch über, da Karl Schmid ein Jahr zuvor nach Freiburg berufen worden war, wo die Forschungen seitdem ebenfalls fortgeführt werden. Die weiteren in Gang befindlichen und geplanten Arbeitsvorhaben und Publikationen sowie die im Projektzusammenhang tätigen Mitarbeiter sind in der von Karl Schmid und Joachim Wollasch 1975 gemeinsam herausgegebenen Programmschrift 'Societas et Fraternitas' (1) genannt, dessen Untertitel 'Begründung eines kommentierten Quellenwerkes zur Erforschung von Personen und Personengruppen' die Zielsetzung deutlich macht.

3. Die Quellen

Die Namen der mittelalterlichen Personen sind in den überkommenen Quellen meist innerhalb von unterschiedlich zusammengesetzten Personengruppeneinträgen überliefert. Dabei kann es sich um Verwandtschaftsgruppen, Zeugenkreise, Bischofsreihen, Herrscherlisten, Mönchskonvente, Klerikergemeinschaften, Pilgergruppen usw. handeln. Solche Personengruppen sind in großer Zahl in Urkunden, Sukzessionslisten, Diptychen, Hörigenverzeichnissen, vor allem aber in Nekrologien und Verbrüderungsbüchern überliefert.

4. Die Aufnahme der Belege

Die Aufnahme der Namenbelege mitsamt den verschiedentlich mitüberlieferten Angaben über Amt, Stand, verwandtschaftliche oder genossenschaftliche Zugehörigkeit, Alter, Lebenszeit und Herkunft der eingetragenen Personen usw. erfolgte innerhalb des Projekts seit Ende der sechziger Jahre auf elektronisch auswertbare Datenträger. Vom Einsatz der EDV war zu erhoffen, daß Personen, deren Namen in verschiedenen Quellen begegnen, anhand der aufgenommenen Angaben zur Person als identisch erkannt werden können. Denn das menschliche Gedächtnis war, wie sich immer wieder zeigte, angesichts der unüberschaubaren Materialfülle überfordert: Das "Reichenauer Verbrüderungsbuch" beispielsweise weist allein 38.000 Personennameneinträge auf.

5. Das Problem der Lemmatisierung

Während eine maschinelle Sortierung des Materials - inzwischen sind etwa 350.000 Personennameneinträge aufgenommen - nach Amt, Stand, Herkunft oder Datierung der eingetragenen Personen nun leicht durchführbar war, stellte sich die im Mittelalter unterschiedliche Schreibung der Namen einer maschinellen Personensuche und -identifizierung als Hindernis in den Weg: Berhtolf und Pertulfus etwa - möglicherweise Belege für ein und dieselbe Person - sind bei alphabetischer Sortierung im Speicher des Rechners durch Tausende von Belegen getrennt. Hier war die Namenforschung zu interdisziplinärer Mitarbeit aufgerufen: Um gleiche Namen trotz variierender Graphie als solche erkennen zu können, mußte jedem Namen ein 'Lemma' beigegeben werden, das bei allen namenkundlich übereinstimmenden Namen jeweils identisch ist. Da der Bestand der zur Namenbildung verwendeten Namenwörter sehr viel kleiner ist als die Zahl der daraus gebildeten mittelalterlichen Personennamen, erwies sich eine Segmentierung und anschließende Lemmatisierung als erfolgversprechend. In den genannten Beispielen Berhtolf und Pertulfus erhalten durch dieses Verfahren einerseits Berht- und Pert- das Lemma +berth, andererseits -olf und -ulf(us) das Lemma +wulf, so daß die Lemma-Information +berth-wulf für die beiden genannten Namenbelege identisch ist. Um eine Vorstellung von den Zahlenverhältnissen zu vermitteln: 799 Namenwort-Lemmata, denen 3.004 Namenwörter subsumiert sind, reichten aus, um die 38.872 Personennamenbelege der Klostergemeinschaft von Fulda (2,4) zu lemmatisieren. Das Lemmatisierungsprogramm, das zunächst für die IBM 360/50 in Münster in der Programmiersprache PL/1 formuliert war (5), ist inzwischen in Freiburg für die UNIVAC 1100/81 völlig neu erstellt worden.

6. Das Verfahren der maschinellen Lemmatisierung

Die maschinelle Lemmatisierung kann als Übersetzung der alt- und mittelhochdeutschen Laut- und Schreibvarianten in eine angesetzte germanische Form verstanden werden. Für die Übersetzung wird eine Namenform zunächst - wie oben unter 5. angedeutet - auf der morphologischen Ebene segmentiert. Den einzelnen Segmenten werden, wenn es sich um Namenwörter und Suffixe handelt, ihre germanischen Ansätze als Lemmata zugeordnet, deren Verkettung dann das Namenlemma zur vorgegebenen Namenform ist.

Um diesen Vorgang programmieren zu können, muß einerseits die Morphologie der mittelalterlichen Namen und andererseits ein Wörterbuch, das die möglichen Bestandteile dieser Namen enthält und ihrem germanischen Ansatz zuordnet, dem Rechner zur Verfügung gestellt werden.

Die Morphologie der Namen läßt sich leicht darstellen, wenn man etwa W für ein Namenwort, S für ein Suffix und F für ein Flexiv schreibt. Alle vorkommenden Namen lassen sich dann einer der Kompositionen W, WF, WS, WSF oder WWF zuordnen. Um damit auch beispielsweise lateinische oder hebräische Fremdnamen, für die ja andere Kompositionsgesetze gelten, zu erfassen, geht man so vor, daß man solche Fremdnamen als ein Namenwort in das Wörterbuch aufnimmt oder allenfalls in "Namenwort" + Flexiv segmentiert. Eine weitere Differenzierung der Morphologie bezüglich der möglichen Positionen von Namenwörtern und der Kongruenz von Namen und Flexiven ist in (8) dargestellt.

Im Wörterbuch sind alle Varianten, die in einem vorgegebenen Corpus belegt sind, ihrem jeweiligen Lemma zugeordnet. Bei den Lemmata sind Informationen über Deklination, Art (Namenwort, Suffix, Flexiv), Herkunft (z.B. lateinisch) und nach Möglichkeit das Geschlecht abgespeichert. Bei den Varianten sind gegebenenfalls eine abweichende Deklination, das Vorkommen in Kurzform, Erstglied oder Zweitglied und Angaben über die Häufigkeit der entsprechenden Positionen vermerkt.

Für die Segmentierung eines Namenbelegs wird zunächst das Wörterbuch nach Varianten durchsucht, die mit dessen Anfang übereinstimmen. Der Name wird dann jeweils zerlegt in betreffende Variante als ersten und einen zweiten Teil. Für den jeweils zweiten Teil wird die Wörterbuchsuche wiederholt. Dabei muß überprüft werden, ob die bisher vorgenommene Zerlegung noch mit einer in der Morphologie zugelassenen Struktur konform ist. Ist das nicht der Fall oder war die Wörterbuchsuche erfolglos, dann wird der entsprechende "Analysepfad" abgebrochen. Andernfalls wird auf jedem Pfad so lange fortgefahren, bis der letzte Teil der jeweiligen Zerlegung ganz als Variante im Wörterbuch gefunden wird.

Die maschinellen Lemmatisierungsergebnisse werden, in übersichtlicher Form gedruckt, vom Philologen bearbeitet. Dabei wird einerseits das Wörterbuch ergänzt und andererseits bei Mehrfachlösungen gegebenenfalls bestimmt, daß eine Namenform einem anderen vom Rechner gefundenen Namenlemma zuzuordnen ist. Danach wird die Lemmatisierung wiederholt, wobei alle Abweichungen vom vorhergehenden Durchgang auf dem Drucker protokolliert werden.

Die Programme wurden in der Programmiersprache SIMULA und teilweise auch in Assembler geschrieben. Ihre Effektivität wird dadurch belegt, daß beispielsweise die Lemmatisierung der ca. 38.200 Namenbelege des "Reichenauer Verbrüderungsbuches" nur etwas mehr als zwei Minuten CPU-Zeit benötigt.

7. Möglichkeiten der Auswertung des lemmatisierten Personennamenmaterials

Abschließend sei kurz auf die verschiedenartigen Möglichkeiten hingewiesen, das nach dem dargestellten Verfahren lemmatisierte Personennamenmaterial für personengeschichtliche, namenkundliche und sprachwissenschaftliche Fragestellungen auszuwerten:

Zur personengeschichtlichen Auswertung
Mit der Bereitstellung der Lemmaform zum überlieferten Namenbeleg ist für den Historiker der entscheidende Schlüssel zur Sortierung des umfangreichen Materials gefunden. Erst dadurch ist es möglich, nach Personen 'gleichen Namens' zu fragen. Durch die Kombination von verschiedenartigen Kriterien, wie beispielsweise 'gleicher Namen' + 'gleicher Titel' + 'gleicher Todestag' ist nun eine ausreichende Differenzierungsmöglichkeit vorhanden, die die maschinelle Suche nach identischen Personen in dem gespeicherten Datenmaterial erlaubt. Zur Herstellung eines geeigneten Arbeitsinstruments für personengeschichtliche Forschungen können die Namenzeugnisse aus verschiedenen Überlieferungen vom Schnelldrucker in Form eines 'Parallelregisters' (6,7) so ausgegeben werden, daß Personen mit gleichem Namen - und gegebenenfalls mit gleichem Titel, Todestag, Herkunftsort usw. - in der Darstellung nebeneinander erscheinen.
Von Anfang an aber hofften die Historiker, nicht nur identische Personen im Gesamtmaterial aufspüren zu können, sondern auch übereinstimmende oder zumindest teilweise übereinstimmende Personengruppen (Familien, Sippen, klerikale oder monastische Gemeinschaften usw.). Es wäre dann möglich, für eine neu gefundene Gruppe von Personen unbekannter Provenienz im Gesamtbestand von 350.000 Namenzeugnissen nach Entsprechungen zu suchen, um eine womöglich übereinstimmende Namengruppe aufzuspüren. Dies darf von einem sog. 'Gruppensuchprogramm' erwartet werden, das zur Zeit in Freiburg entwickelt und erprobt wird.
Zur namenkundlichen Auswertung
Die Lemmatisierung der Personennamen durch die Analyse der diese bildenden Namenwörter, Suffixe und Flexive erlaubt nicht nur die verschiedenartigsten Häufigkeitsstatistiken der überkommenen Namen (Fremdnamen - germanische Namen; Frauennamen - Männernamen; zu- oder abnehmende Beliebtheit bestimmter "Mode"-Namen usw.), sondern auch der Namenwörter (Verwendung als Erstglied, Zweitglied und in eingliedrigen Bildungen; Variantenreichtum, Variantenhäufigkeit usw.), Suffixe (zu- oder abnehmende Tendenz im Gebrauch bestimmter Suffixe usw.) und Flexive (lat. Flexion - ahd. Flexion; starke - schwache Flexion bei Kurzformen usw.). Auch Untersuchungen zur Namenkombinatorik (Vermeidung der Alliteration von Erst- und Zweitglied, Häufigkeit und Vermeidung bestimmter Komposita) und zur unterschiedlichen Beliebtheit gewisser Namenformen (Kurzformen, Fremdnamen) bei den einzelnen gesellschaftlichen Gruppen (Hörige, Mönche, Adel) können an dem gespeicherten Material mit Hilfe einfacher Programme vorgenommen werden. Da die Aussagekraft solcher Namenstatistiken vom Umfang und von der zeitlichen Streuung des aufgenommenen Personennamenmaterials abhängt, sind nun erstmals gesicherte statistische Ergebnisse auf ausreichend breiter Basis zu erwarten, wie sie bislang ohne den Einsatz der EDV nicht erzielt werden konnten.
Zur sprachhistorischen und sprachgeographischen Auswertung
Für die sprachwissenschaftliche Erforschung des Althochdeutschen in seiner chronologischen Entwicklung und geographischen Verbreitung bietet das beschriebene Lemmatisierungsverfahren optimale Voraussetzungen. Denn in der lautlichen Differenz zwischen dem Lemma auf germanischer Sprachstufe und den überlieferten althochdeutschen Namenzeugnissen läßt sich die sprachgeschichtliche Entwicklung - auch in ihrer regional unterschiedlichen Ausprägung - ablesen. Die Realisierung des germanischen [langen] o in althochdeutscher Zeit läßt sich beispielsweise übersichtlich in einer chronologisch geordneten Tabelle aller Belege darstellen, deren Lemmaform ein [langes] o aufweist (*hroth-, *othal- usw.), so daß sich der Übergang o > uo/ua/oa in der Graphie zeitlich exakt bestimmen läßt. Eine geographisch geordnete Auflistung derselben Namenzeugnisse ermöglicht dagegen eine Übersicht über die regional eingrenzbare Verbreitung von uo, ua und oa. Auf einer Grundkarte, die die Orte mit althochdeutscher Personennamenüberlieferung enthält, ist sogar mit Hilfe eines vom Rechner gesteuerten Plottergerätes unmittelbar die Verbreitung der verschiedenen Diphthonge kartographisch darstellbar. Diese Grundkarte bietet ein erheblich engmaschigeres und zuverlässigeres Netz von Überlieferungsorten als die Karte der Orte, denen wir die wenigen erhaltenen Literaturdenkmäler des Althochdeutschen mit mehr oder weniger stichhaltigen Argumenten zuweisen. Der Ertrag für die Grammatik des Althochdeutschen dürfte jedenfalls nicht unerheblich sein, zumal sich die Namenzeugnisse häufig exakt datieren und lokalisieren lassen. Daß sich aufgrund der frühmittelalterlichen Personennamenüberlieferung - bei allen gebotenen methodischen Vorbehalten - sogar Anhaltspunkte für die sprachgeographische Zuordnung und zeitliche Fixierung der literarischen Denkmäler erarbeiten lassen, konnte am Beispiel der Überlieferung des Klosters Fulda bereits gezeigt werden.

Literatur

Karl Schmid/Joachim Wollasch: Societas et Fraternitas. Begründung eines kommentierten Quellenwerkes zur Erforschung der Personen und Personengruppen des Mittelalters. Berlin 1975 (Zugleich in: Frühmittelalterliche Studien 9, 1975, S. 1-48)
Die Klostergemeinschaft von Fulda im früheren Mittelalter (unter Mitwirkung von Gerd Althoff, Dieter Geuenich, Eckhard Freise, Franz-Josef Jakobi, Hermann Kamp, Otto Gerhard Oexle, Mechthild Sandmann, Joachim Wollasch, Siegfried Zörkendörfer). Hg. von Karl Schmid (Münstersche Mittelalter-Schriften) München 1978
Das Verbrüderungsbuch der Abtei Reichenau, hg. von Johanne Autenrieth, Dieter Geuenich und Karl Schmid (MGH Libri memoriales et necrologia, Nova Series I) Tübingen 1979
Dieter Geuenich: Die Lemmatisierung und philologische Bearbeitung des Personennamenmaterials (in Nr. 2, S. 37-84)
Hermann Kamp: Ein Algorithmus zur automatischen Lemmatisierung von Personennamen (in Nr. 2, S. 85-107)
Gerd Althoff: Zum Einsatz der elektronischen Datenverarbeitung in der historischen Personenforschung. In: Freiburger Universitätsblätter 52, 1976, S. 17-32
Karl Schmid/Dieter Geuenich/Joachim Wollasch: Auf dem Weg zu einem neuen Personennamenbuch des Mittelalters. In: Onoma 21, 1977, S. 355-383
Dieter Geuenich/Alfred Lohr: Der Einsatz der EDV bei der Lemmatisierung mittelalterlicher Personennamen. In: Onoma 22, 1978, S. 554-585

Diskussion

Es bestehen Kontakte zwischen dem Freiburger Projekt und dem ZDV Tübingen zur Edition des "Reichenauer Verbrüderungsbuches" (incl. Faksimiles) in den Monumenta Germaniae Historica (MGH) (3) mit Hilfe der Satzprogramme des ZDV. Ohne eine gesonderte Manuskripterstellung mit den dabei üblichen Fehlermöglichkeiten kann dabei das mit EDV aufbereitete Namensmaterial direkt zum Satz überführt werden.

(Die Kurzfassung des Referates wurde vom Referenten zur Verf�gung gestellt.)

Zur Übersicht über die bisherigen Kolloquien

tustep@zdv.uni-tuebingen.de - Stand: 23. Mai 2002

Allgemeine Information

Dieter Geuenich (Historisches Seminar der Universität Freiburg), Alfred Lohr (Rechenzentrum der Universität Freiburg)

EDV-unterstützte Personen- und Sprachforschung aus mittelalterlichen Quellen

Literatur

Diskussion

Dieter Geuenich (Historisches Seminar der Universität Freiburg),
Alfred Lohr (Rechenzentrum der Universität Freiburg)