Protokoll des 11. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 20. November 1976

 

Allgemeine Information

W. Ott weist bei der Begrüßung darauf hin, daß am ZDV Tübingen auf der TR440 Programme zur Verfügung stehen, die eine Verarbeitung von Texten auch für Benutzer ohne Programmierkenntnisse ermöglichen.

 

Renate Birkenhauer (Deutsches Seminar)

Kurzbericht über das Internationale Kolloquium
"Automatische Lexikographie, Analyse und Übersetzung"
vom 23.-25. Sept. 1976 in Saarbrücken

Die automatische Übersetzung, zuletzt noch totgesagt in einer großen Anzeige der IBM (FAZ 28.8.75), erlebt nach Euphorie und Resignation eine Phase des Realismus: man versucht das Machbare. Für diesen Eindruck sorgte die europäische Gruppe Leibniz, die mit Grenoble, Paris und dem Gastgeber des Kolloquiums, dem SFB 100 in Saarbrücken, am stärksten repräsentiert war. Sie erarbeitet ein mehrsprachiges, automatisches Übersetzungsverfahren für den Bedarf der Europäischen Gemeinschaft (EG).
  1. Innerhalb dieser als wissenschaftliche Disziplin betriebenen "fully high quality machine translation" (nicht etwa nur einer computerunterstützten Übersetzung) beschäftigten sich die theorieorientierten Referenten mit Äquivalenzproblemen einer kontextfreien Grammatik für die metasprachliche "Interlingua", i.e. die sprachuniversale Zwischenstufe im Übersetzungsprozeß, auf der die semantischen Beziehungen eines beliebigen Satzes widerspruchsfrei nach Art eines logischen Kalküls abgebildet werden, sodaß daraus das Äquivalent in einer beliebigen anderen Sprache synthetisiert werden kann.
    Dagegen erörterten die Berichterstatter der praxisorientierten Projekte konkrete, jeweils auf ein Sprachenpaar bezogene Identifikationsverfahren. Hier wird der Output des Analyseschritts in einer Form strukturiert, die sich an der Synthesegrammatik für die jeweilige Zielsprache orientiert. Bernard Vauquois (Grenoble) führte eine morphologische Analyse des Französischen am Sichtgerät vor, und beim SFB 100 konnte man die Übersetzung einzelner Sätze für die Sprachenpaare Englisch-Deutsch, Russisch-Deutsch und Esperanto-Deutsch am Bildschirm verfolgen.
  2. Am weitesten fortgeschritten ist in Saarbrücken die automatische Lemmatisierung, ein Identifikationsverfahren für die lexikalischen Einheiten im Satz, in das das große Saarbrücker Wörterbuch eingegangen ist. Im Gegensatz zur üblichen wortformenbezogenen Lemmatisierung wird hier jedoch satzbezogene Lemmatisierung betrieben, und ein großer Teil der semantischen und strukturellen Mehrdeutigkeiten wird schon im Lexikonteil desambiguiert, was die Satzanalyse wesentlich entlastet.
  3. In Saarbrücken wurde speziell für linguistische Verfahren die Programmiersprache COMSKEE (COMputing and StringKEEping language) konzipiert. Sie vereinigt Vorteile aus verschiedenen höheren Programmiersprachen und ermöglicht eine dynamische Behandlung von strings: Eine Zeichenkette kann beliebig verlängert oder verkürzt werden und belegt nur soviel Speicherplatz wie ihrer augenblicklichen Länge entspricht. Strings können an beliebigen Stellen angesprochen, verändert und miteinander verkettet werden.

Literatur

Automatische Lexikographie, Analyse und Übersetzung. Internationales Kolloquium vom 23.9.-25.9.1976. Saarbrücken, Universität des Saarlandes: SFB Elektronische Sprachforschung. Preprints (1976).

Diskussion

Das Saarbrücker Wörterbuch steht auch auswärtigen Interessenten, z.B. für Auftragsanalysen, zur Verfügung. Das Wörterbuch umfaßt den aktuellen Wortschatz des modernen Deutsch und wird ständig ergänzt,

 

Burghart Wachinger (Deutsches Seminar)

Erstellung eines Repertoriums des Meistergesangs (14.-18. Jh.)

An zwei von der deutschen Forschungsgemeinschaft finanzierten Arbeitsstellen wird zur Zeit ein Repertorium der Sangspruchdichtung und des Meistergesangs vom 14.-18. Jahrhundert erarbeitet. Es soll die ca. 16.000 überwiegend nicht edierten Lieder dieser Tradition in drei Katalogen (Verzeichnis der Handschriften und Drucke, Verzeichnis der Lieder, Verzeichnis der Töne), die ihrerseits durch zahlreiche Register erschlossen werden, für die Forschung, insbesondere für literatur-, bildungs- und frömmigkeitsgeschichtliche Untersuchungen zugänglich machen. Eine Arbeitsstelle am Deutschen Seminar der Universität Tübingen unter Leitung von Burghart Wachinger erfaßt die älteren Lieder (bis ca. 1520), eine Arbeitsstelle an der Stadtbibliothek Nürnberg unter Leitung von Horst Brunner die jüngeren Lieder. Das Material wird in maschinenlesbarer Form aufbereitet. Der Einsatz der EDV (unter Leitung von Paul Sappler, Tübingen) soll später den Druck durch Lichtsatzprogramm und die Erstellung der Register und schon jetzt die Benutzung vorläufiger Register zu Kontrollzwecken während der Arbeit ermöglichen.

Aus dem Bereich der Registerplanungen - vorgesehen sind u.a. auch Namenregister, Bibelstellenregister, Motivregister nach den Nummern bei Stith Thompson - scheinen in einem Kreis von EDV-Benutzern drei Komplexe hervorhebenswert:

  1. Incipitregister. Die Incipits (im älteren Teil bis ca. 1520 Strophenanfänge, im jüngeren Teil nur Liedanfänge) müssen im Ausdruck in der überlieferten Graphie erscheinen, für die Sortierung im Register aber muß eine dem Benutzer vertraute Norm zugrundegelegt werden, d.h. für jüngere Texte die heutige Orthographie, für ältere das sogenannte Normalmittelhochdeutsche, nach dem u.a. die Lexika angeordnet sind. Zur Vermeidung unnötiger Arbeitsgänge werden jeweils am Anfang (für das alphabetische Register) und am Ende (für das Reimregister) nur einige Wörter so bearbeitet, daß handschriftliche und normalisierte Form verschränkt sind und daß Steuerzeichen die maschinelle Entzerrung ermöglichen (z.B. Handschrift: wer haben woll - normalisiert: swer haben welle - Aufnahme: s,wer haben wo;elle).
  2. Die Stichworte, durch die Inhalt und formale Besonderheiten der Lieder erschlossen werden sollen, müssen mit größtmöglicher Konsistenz vergeben werden. Sekundäre Verbesserungen aufgrund vorläufiger Ausdrucke sind möglich. Durch bestimmte Steuerzeichen kann ein anderes als das erste Wort zum Ordnungswort im Register bestimmt werden (bestrafte 1Unschuld > Unschuld, bestrafte - : [Stellen]). Oder es können Teile einer komplexen Stichwortformulierung als zusätzliche Registereinträge herausgehoben werden (Exempel, 2Hose des Buhlers2'0 von 4Äbtissin als Schleier gebraucht > Exempel, Hose des Buhlers von Äbtissin als Schleier gebraucht: [Stellen]; Hose des Buhlers, Exempel, - von Äbtissin als Schleier gebraucht: [Stellen]; Äbtissin s. Exempel, Hose des Buhlers [keine Stellenangaben]). Schließlich können Verweise unter verwandten Stichwörtern angebracht werden (Spaziergangseinleitung 7Allegorie > Spaziergangseinleitung: [Stellen]; Allegorie s. auch Spaziergangseinleitung [keine Stellenangaben]).
  3. Der Tönekatalog wird im Gegensatz zu den meisten anderen (z.T. ebenfalls mit Computer erarbeiteten) metrischen Repertorien durch mehrere Register erschlossen; diese sollen das schnelle Auffinden identischer oder unter verschiedenen Aspekten ähnlicher Strophenformen erleichtern und vorgeordnetes Material für formgeschichtliche Fragestellungen bereitstellen. Zu diesem Zweck werden jeweils verschiedene Ordnungskriterien in möglichst sinnvollen Hierarchisierungen kombiniert. Vorgesehen sind:
    1. Reimschemaregister, geordnet nach: Reimzahl der Aufgesänge - Reimstruktur der Aufgesänge - Reimzahl der Abgesänge - Reimstruktur der Abgesänge;
    2. Reimzahlregister, geordnet nach: Gesamtzahl der Reime - Reimzahl der beiden Stollen - Reimzahl der Abgesänge;
    3. Hebungszahlregister, geordnet nach: Hebungszahl der Stollen - Reimstruktur der Stollen - Hebungszahl der Abgesänge - Reimstruktur der Abgesänge;
    4. Silbenzahlenregister (entsprechend c);
    5. Register für besondere Strukturmerkmale (z.B. nichtstollige Töne, "dritter Stollen", Gleichversigkeit, Anreimung des Abgesangs).

Diskussion

Der Nachweis der Bibelstellen im Register erfolgt nur, wenn diese explizit genannt sind. Ein weitergehender Nachweis scheitert an dem erforderlichen Aufwand bzw. an der verfügbaren personellen Kapazität.

Das Repertorium wird bei der Publikation in 4-6 Jahren etwa 12 Foliobände füllen. Ob das Material auch nach der Publikation für Abfragen und Auswertungen über EDV zur Verfügung stehen wird, läßt sich zum jetzigen Zeitpunkt noch nicht absehen.

 

Erdmann Weyrauch / Ingrid Batori (SFB 8 Spätmittelalter und Reformation)

Der Einsatz von EDV in der Geschichtswissenschaft.
Überblick anhand einer Arbeitstagung vom 23.-24.10.1976 in Bielefeld und einschlägiger Referate vom Deutschen Historikertag vom 22.-26.9.1976 in Mannheim

Erdmann Weyrauch

Methodische Bemerkungen zur Quantifizierung / EDV-Anwendung in der Geschichtswissenschaft

Der quantifizierende und EDV anwendende Historiker, der immer noch gegen Unkenntnis, Mißverständnisse und Vorurteile innerhalb seiner Disziplin anzukämpfen hat, befindet sich in der schwierigen Situation, Methoden und Medien, die ihrerseits zügigen Innovationsprozessen unterworfen sind, erlernen und handhaben zu müssen.

Vereinfacht dargestellt, bieten sich dem Geschichtswissenschaftler hinsichtlich der Quantifizierung wie in Bezug auf ihre Umsetzung durch EDV jeweils zwei Einstiegsmöglichkeiten: Er kann mathematisch-statistische Verfahren und Modelle, zugeschnitten für historische Fragestellungen, aus der internationalen Forschung übernehmen bzw. an sie anknüpfen (nach wie vor besteht hier ein Entwicklungs- und Erfahrungsvorsprung insbesondere in den USA, in Großbritannien und Frankreich) oder sich "auf eigene Faust" statistische Lösungswege nach den spezifischen Bedingungen und Erfordernissen seiner Forschungsaufgabe erarbeiten. Die Orientierung an Beispielen und Erfolgen der hierin erfahreneren Sozialwissenschaften liegt dabei nahe. Soweit die Anwendung der EDV in Frage steht, kann er die benötigten Programme selbst "schreiben" - der Software-Komfort seiner Rechenanlage spielt hierbei eine große Rolle - oder auf sogenannte Programmpakete wie SPSS, OSIRIS oder DATATEXT zurückgreifen. Im Idealfall wird er in beiden Fällen Leistungen auf drei verschiedenen Ebenen erwarten, nämlich in der Datenhaltung, Datenverarbeitung (-bearbeitung) und Datenanalyse.

Beide Vorgehensweisen implizieren Vor- und Nachteile. "Eigenprogramme" sind maßgeschneidert, d.h. sie passen sich den Bedingungen und Eigenheiten der zu verarbeitenden Daten an, nicht zuletzt schon bei der Dateneingabe (Input-Plus); in nicht wenigen Fällen werden aber Eigenprogramme das Optimum in der Datenanalyse nicht oder nur bei einem unverhältnismäßig hohen Programmieraufwand erbringen (Output-Minus). Bei der Benutzung fertiger Programmpakete verhält es sich - Ausnahmen bestätigen die Regel - genau umgekehrt. Differenzierten und ausgefeilten Programmleistungen (Output-Plus) stehen u.U. fatale Schwächen gegenüber. Fraglich und fragwürdig ist vor allem: Steht das gewünschte Programmpaket am örtlichen Rechenzentrum schon zur Verfügung? Leisten die zur Verfügung stehenden Daten das, was das Programm zu leisten in der Lage ist? Lassen sich die Daten den Eingabevorschriften des Programmpaketes anpassen? Mit welchem Aufwand? Mit welchem Informationsverlust? Auf welche dem Programmpaket unterliegende Modellvorstellung wird man fixiert?

Nach einem Befund von Wolfgang Bick (Bielefelder Arbeitstagung) schließt z.B. SPSS (von etwa 50% der geschichtswissenschaftlichen Projekte in der BRD, die mit maschinenlesbaren Daten arbeiten, benutzt) bestimmte, in den 60er Jahren in den USA vorherrschende Modellannahmen mit ein, vornehmlich solche einer seinerzeit dominierenden Umfrageforschung, die auf der Basis von m x n-Matrizen "über eine vorgegebene Zahl von Individuen zu einem bestimmten Zeitpunkt individuelle Merkmale erhob und dann Zusammenhänge zwischen Variablen zur Erklärung heranzog" (Bick). Die weite Verbreitung von SPSS bewirkt eine Perpetuierung dieser Modellannahmen auch in der Geschichtswissenschaft, obwohl neuere Entwicklungen längst komplexere Analyseansätze zu Tage gefördert haben und hierfür z.T. auch brauchbare EDV-Programme bereithalten. Es gilt, diese Fortschritte durch einen vorschnellen und kurzsichtigen Rückgriff auf ein gängiges und leicht beschaffbares Programmpaket wie SPSS nicht zu verschütten.

Die angesprochenen neuen Fragestellungen und Lösungswege konzentrieren sich insbesondere auf die Erschließung, Beschreibung und Analyse komplexerer und komplizierterer sozialer Zusammenhänge und Strukturen. Eine kurze listenförmige Bestandsaufnahme kann folgende, über die Modellannahme von SPSS hinausführende Methoden (vorgestellt in Bielefeld von Wolfgang Bick; in Klammern die dazugehörigen EDV-Programme) nennen:

  1. Clusteranalyse, multidimensionale Skalierung (CLUSTAN 1C)
  2. Netzwerkanalyse (SOCK, COMPLIT, NEGOPY)
  3. Mehrebenenanalyse
  4. Analyse von Lebensgeschichten (CROSSTABS)
  5. Zeitreihenanalysen (TROLL)
  6. Computer Mapping (CALFORM, SYMAP).

 

Ingrid Batori

Bericht über laufende Projekte mit EDV-Anwendung in der Geschichtswissenschaft

In der deutschen Geschichtswissenschaft ist von den Möglichkeiten der EDV bisher nur sehr zögernd Gebrauch gemacht worden. In jüngster Zeit scheint sich jedoch eine Tendenzwende abzuzeichnen; dafür spricht die Gründung der
QUANTUM Arbeitsgemeinschaft für Quantifizierung und Methoden in der historisch-sozialwissenschaftlichen Forschung e.V., 5000 Köln, Vondelstraße 56-58
und das erste Zusammentreten einer Arbeitsgemeinschaft
"EDV-Einsatz in der Wirtschafts- und Sozialgeschichte des Mittelalters und der Frühen Neuzeit"
im Zentrum für interdisziplinäre Forschung der Universität Bielefeld auf Initiative von Prof. Franz Irsigler im Oktober 1976.

QUANTUM hat auf dem Historikertag in Mannheim im September 1976 einige Projekte, die mit quantifizierenden Methoden arbeiten, vorgestellt. Auf der Tagung der Arbeitsgemeinschaft "EDV-Einsatz" in Bielefeld wurden von fast allen Teilnehmern Arbeitspapiere über laufende oder geplante Projekte mit EDV-Einsatz vorgelegt. Darin zeichnet sich ab, daß mit EDV vorwiegend in folgenden Forschungsbereichen der Geschichtswissenschaft gearbeitet wird:

  1. Historische Demographie
  2. Sozialgeschichte der Familie und sog. "Kollektive Biographien"
  3. Struktur und Mobilität sozialer und ständischer Gruppen und Gesamtheiten
  4. Zeitreihen, insbesondere zur Preis- und Wirtschaftsgeschichte.

Die Bedingungen, unter denen in den vorgestellten Projekten EDV angewendet wird, erwiesen sich als recht unterschiedlich. Nur wenige Historiker programmieren, unter Beratung der zuständigen Rechenzentren, selbst. Einige arbeiten mit befreundeten EDV-Fachleuten zusammen, die Mehrzahl verwendet Programmpakete, die jedoch nicht für historische, sondern für sozialwissenschaftliche Bedürfnisse zugeschnitten sind, vorwiegend SPSS. Wegen der Begrenztheit der Fragestellungen, die mit diesem Paket für historische Forschungsansätze zur Verfügung stehen, wird sein Einsatz jedoch von vielen als ein Notbehelf empfunden. Nur ein Team (Historische Demographie, Prof. Imhof, FU Berlin) hat einen eigenen Programmierer und einen Statistiker zur Verfügung.

Zum Gesamtbild des Komplexes "EDV in der Geschichtswissenschaft" läßt sich aufgrund der Erfahrungen auf diesen beiden Tagungen sagen:

  1. EDV ist als "historische Hilfswissenschaft" keineswegs bereits allgemein anerkannt; es gibt immer noch Animositäten, Ablehnung und Desinteresse, vor allem mangelt es noch an Information. Bemühungen, Studenten an das Hilfsmittel EDV in der historischen Forschung heranzuführen, stecken noch in den allerersten Anfängen.
  2. Aus der praktischen Arbeit mit EDV in den einzelnen Projekten ergaben sich einige wenige Diskussionsschwerpunkte:
    • Kodierung. Im allgemeinen strebt man eine möglichst offene Kodierung an, die den Zustand zu Beginn der Arbeiten nicht für alle Zeiten festschreibt und außerdem größtmögliche Quellennähe garantiert. Andererseits soll aber doch großzügige quantifizierende Auswertung gewährleistet sein.
    • Dateneingabe und -korrektur. Die Fehlerkorrektur der Eingabedaten wird von vielen als besonders zeitraubend empfunden. Eingabe über OCR/Belegleser ist kaum in Gebrauch, über die Benutzung von Sichtgeräten zur Dateneingabe gab es bisher unter den Teilnehmern noch kaum Erfahrungswerte.
    • Record-Linking, wichtig für alle mit Personendaten arbeitenden Projekte, kann bisher nur (mit maschineller Vorbereitung) von Hand gemacht werden. Als einzige Gruppe, die maschinelles Record-Linking erfolgreich durchführt, wurde genannt: das Demographie-Department der Universität Montreal, Kanada.
    • Das Fehlen leicht übertragbarer, auf spezifisch historische Daten und Fragestellungen ausgerichteter Programme und Programmpakete zur allgemeinen Verfügung wird als großer Mangel empfunden. Bestrebungen, diesem Mangel abzuhelfen, sind im Gange, stehen jedoch ebenfalls erst in den Anfängen.

Vollständige Liste der Referate in: "QUANTUM Information" No. 1 (December 1976) S. 12-14

Diskussion

Neben der gelegentlichen Diskriminierung der Arbeit mit EDV wirkt sich auch die weitgehende Isolierung der einzelnen Projekte nachteilig aus. Eine Projektsammlung und -publikation durch QUANTUM ist in Vorbereitung.

Erwünscht wäre die Anfertigung von Programmen, die - nach der Art von Fertigbauteilen - über den Zweck ihrer speziellen Anwendung hinaus auch von anderen Projekten ohne größeren Anpassungsaufwand übernommen werden könnten. Diese Arbeit könnte wohl nur von einem hauptamtlichen Arbeitsteam unter Berücksichtigung der wichtigsten methodischen und praktischen Erfordernisse geleistet werden. Voraussetzung dafür wäre eine gezielte Ermittlung der Bedürfnisse und ihre Bewertung; dies soll Aufgabe des 2. Bielefelder Treffens sein.

 
(Die Kurzfassungen der Referate wurden von den Referenten zur Verfügung gestellt).


Zur
Übersicht über die bisherigen Kolloquien
tustep@zdv.uni-tuebingen.de - Stand: 18. März 2002