Auf diesem Hintergrund sind zwei Projekte zu sehen, die im
Sommer 1985 begonnen haben: das von der DFG geförderte
Projekt PROTEXT und das aus der
Forschungsschwerpunktförderung des Landes
Baden-Württemberg finanzierte Projekt COLEX.
Programmpaket mit endbenutzerfreundlichem Bedienungsrahmen zur Unterstützung geisteswissenschaftlicher Texterschließung in einem engen Verbund von Arbeitsplatzrechnern und Zentralrechner.
Ziel des Projekts ist es zunächst einmal, Programme für die Textbearbeitung und Texterschließung in Heidelberg verfügbar zu machen, um so die Voraussetzung für eine verstärkte Nutzung von EDV in den Geisteswissenschaften zu schaffen. Es sollen formal ähnliche Arbeitsgänge maschinell unterstützt werden, die in allen Textwissenschaften auftreten, wie z.B. die Segmentierung von Texten nach verschiedenen, z.T. inhaltlichen Kriterien, der Vergleich von Lesarten, die Klassifizierung von Texteinheiten, die Zurückführung von Varianten auf Grundformen, die Aufsuche von Belegen im Kontext, die Erstellung sortierter Konkordanzen und Register, die Anordnung zusammengestellter und bearbeiteter Daten für den Druck u.a.
Um die Nutzbarkeit zu vergrößern, sollen die Programme den Charakter eines Pakets erhalten, dessen innere und äußere Schnittstellen zueinander und zu anderen Programmen passen. Ein solches Paket dürfte umso brauchbarer sein, je besser es theoretisch fundiert ist. Es werden deshalb zunächst die Arbeitsgänge in der textwissenschaftlichen Forschung empirisch ermittelt. PROTEXT arbeitet zu diesem Zweck mit sechs bestehenden geisteswissenschaftlichen Projekten in Heidelberg zusammen. Diese erhalten Arbeitsplatzrechner gestellt und teilen dafür ihre Erfahrungen der Projektgruppe von PROTEXT mit.
Als nächstes ist zu beurteilen, welche der beobachteten philologischen Tätigkeiten ihrer Natur nach formalisierbar sind und daher vollständig vom Computer übernommen werden können, welche nur teilweise mechanisierbar sind und daher interaktiv von Mensch und Maschine erledigt werden müssen, und welche sinnvollerweise auch weiterhin der rein intellektuellen Bearbeitung vorbehalten bleiben sollten. Die Kriterien für diese Beurteilung müssen sich aus der Sprachtheorie ergeben, da es sich bei den philologischen Arbeiten ja um bestimmte Operationen mit sprachlichem Material handelt. (Um z.B. zu entscheiden, ob ein befriedigendes Programm zur Parallelstellensuche möglich ist, muß man klären, was überhaupt unter einer Parallelstelle verstanden werden kann.) Bei der Bestimmung der Grenzen des Computereinsatzes sollen die fortgeschrittenen Techniken in der Computerlinguistik und der Künstlichen Intelligenzforschung berücksichtigt werden. Das erste Ergebnis des Projekts PROTEXT wird also das Konzept zu einem Programmpaket sein, dessen ideale Moduln sich aus einer sprachtheoretischen Würdigung der empirisch beobachteten textwissenschaftlichen Tätigkeiten ergeben haben.
Eine wichtige Quelle für das Studium der in den
Geisteswissenschaften benötigten EDV-Funktionen sind
natürlich die bereits bestehenden Programme. Im Rahmen
von PROTEXT wird ein Forschungsbericht über die
existierende Software erstellt werden, wobei diese nach
den oben genannten idealen Kriterien klassifiziert werden
soll. Soweit Programmpakete vorhanden sind, die den
Anforderungen bereits zu einem großen Teil genügen (wie
vielleicht TUSTEP und einige andere), wird sich PROTEXT
um Zusammenarbeit mit den Eigentümern bemühen und eine
probeweise Implementierung auf dem Heidelberger
Großrechner anstreben. Das Ziel des Projekts PROTEXT liegt
dann darin zu untersuchen, welche der textverarbeitenden
Funktionen sinnvollerweise auf den Arbeitsplatzrechner
heruntergeholt werden können, wie diese mit der für PCs
entwickelten kommerziellen Software in Verbindung
gebracht werden könnnen und wie schließlich das
Zusammenspiel von Arbeitsplatzrechner und Großrechner
im Rahmen der Gesamtarchitektur am besten zu organisieren ist.
"Untersuchung der Einsatzmöglichkeiten des Computers im Rahmen einer theoretisch fundierten lexikographischen Praxis".
Angesichts der Materialmengen, die bei der Herstellung
eines Wörterbuches unter verschiedenen Gesichtspunkten zu
bearbeiten sind, stellt sich die Frage nach den
Möglichkeiten eines sinnvollen Einsatzes der
elektronischen Datenverarbeitung auch in der
Lexikographie. Im Projekt COLEX soll diese Frage in
Zusammenarbeit zwischen Metalexikographie und
Computerlinguistik beantwortet werden. Die
Metalexikographie liefert eine Beschreibung der
Einheiten, aus denen Lexikoneinträge bestehen, und,
daraus abgeleitet, Prinzipien und Methoden, nach denen der
Lexikograph solche Einträge zu erstellen hat. Die
Computerlinguistik trägt fortgeschrittene Theorien und
Verfahren der maschinellen Sprachverarbeitung zum
Vorhaben bei. Es wird ein Modell einer Lexikographie
entworfen werden, das Komponenten reiner
Computerverarbeitung, der Mensch-Maschine-Interaktion und
reiner menschlicher Bearbeitung enthält. Anschließend soll
auf der Grundlage dieses Modells ein lexikographisches
Programmsystem implementiert und in der Praxis eingesetzt
werden. Da die zur Erschließung der Materialgrundlage
benötigten Programme von PROTEXT entwickelt werden, ist
als Schwerpunkt von COLEX die Frage nach einer
Computerunterstützung der Erstellung von
Bedeutungsbeschreibungen vorgesehen.
1. Einsatz der EDV in den Geisteswissenschaften an der
Universität Tübingen
Die bisherige Tätigkeit der Universität Tübingen auf dem
Gebiet der wissenschaftlichen Textdatenverarbeitung umfaßt
Projekte aus nahezu allen geisteswissenschaftlichen
Fachgebieten, angefangen von der Archäologie, der
Ägyptologie über die übrigen alten und neuen Philologien
und Literaturwissenschaften, die Religionswissenschaft und
Theologien, die Geschichtswissenschaft bis hin zum
Archiv- und Bibliothekswesen. Einen guten Überblick
darüber geben die bisherigen 34 Protokolle der Tübinger
Kolloquien zum Einsatz der EDV in den Geisteswissenschaften.
Sachlich bzw. methodisch lassen sich diese Arbeiten mit
folgenden Stichworten umreißen: Editionstechnik,
Textkritik, automatisches Kollationieren unterschiedlicher
Textfassungen, elektronische
Satzherstellung; Index- und Register-Herstellung,
Konkordanzen; Wortschatz-Untersuchungen; Wörterbücher;
Lexikologie, Lexikographie; Verzeichnisse aller Art (bis
hin zum Telefonbuch); Bibliographien, Dokumentation;
Erschließung historischer Quellen; metrische und
stilistische Analysen und Untersuchungen.
2. Die organisatorische und technische Infrastruktur
Organisatorisch ist dieser Schwerpunkt in die Abteilung
Literarische und Dokumentarische Datenverarbeitung am
Zentrum für Datenverarbeitung (ZDV) der Universität
eingebunden. Diese Abteilung wurde (nach entsprechenden
Vorarbeiten seit 1966) im September 1970 offiziell
eingerichtet mit der Aufgabe der Entwicklung und
Betreuung von Methoden und Programmen zur Verarbeitung von
Textdaten aller Art. Dadurch sollte vor allem den
geisteswissenschaftlichen Fachbereichen der Universität
Zugang zu dem für sie relativ neuen Hilfsmittel EDV ermöglicht werden.
3. Das Tübinger System von Textverarbeitungsprogrammen TUSTEP
TUSTEP ist die Frucht langjähriger Zusammenarbeit mit
vielen Einzelprojekten auf den genannten Gebieten.
Wissenschaftliche Anforderungen und Erfahrungen aus einer
Vielzahl von kleinen und großen Projekten sind darin
eingeflossen; Datenverarbeitungs-Fachleute haben diese
gesammelt und im Lauf der Jahre dem Geisteswissenschaftler
ein flexibles, benutzerfreundliches, sicheres und
effizientes Werkzeug für seine Aufgaben zur Verfügung stellen können.
Zwei Forderungen waren bei der Entwicklung dieses
Werkzeuges zu erfüllen: Es muß von Wissenschaftlern ohne
Programmierkenntnisse oder sonstige tiefere EDV-Kenntnisse
effizient und sicher eingesetzt werden können und
trotzdem so flexibel sein, daß es den unterschiedlichsten
Aufgabenstellungen gerecht wird.
Dies spiegelt sich im Grundkonzept von TUSTEP wider:
Es stellt für die wichtigsten Grundoperationen der
Textdatenverarbeitung jeweils eigene Programme mit jeweils
streng begrenztem Aufgabenbereich zur Verfügung; der
Benutzer kann und muß diese seinem Problem
entsprechend in vielfältiger Weise kombinieren und zu
größeren Kommandofolgen zusammenstellen. Dabei kann
er die Leistung der einzelnen Programme in einer problemnahen
Notierung über Parameter genau spezifizieren und seiner
Aufgabe anpassen.
So enthält TUSTEP beispielsweise kein Programm zur
Registererstellung; dazu müssen die Programme
REGISTER-VORBEREITE (zum Zerlegen von Texten in die
gewünschten Bestandteile bzw. zum Herausziehen der
Registerbegriffe aus Texten und zur Vorbereitung der
Sortierung), SORTIERE (zum eigentlichen Umordnen der
Sortiereinheiten) und REGISTER-AUFBEREITE (zum
Zusammenfassen sortierter, ggf. hierarchisch
gegliederter Registereinträge) hintereinander benutzt
werden; bei Bedarf können andere Programme (z.B. zur
weiteren Ergänzung der Registereinträge aus anderen
Dateien) dazwischengeschoben oder (z.B. zur weiteren
Aufbereitung oder zur Ausgabe über Lichtsatz statt über
DV-Drucker) nach REGISTER-AUFBEREITE angehängt werden. Das
so aufbereitete Register kann wieder Ausgangspunkt
für andere Register (z.B. ein Häufigkeitswörterbuch) sein.
Gerade durch diese freie Kombinierbarkeit der Programme
wird eine beträchtliche Flexibilität erreicht.
Die Ziele des Schwerpunkts lassen sich in drei
Schlagworten zusammenfassen :
Hierzu wurden sowohl Personalmittel als auch Sachmittel
für Investitionen bereitgestellt: Insgesamt drei
wissenschaftliche Angestellte (davon eine Stelle für den
Problemkreis rechnergestützte Lexikographie und
Registererstellung, für den Paul Sappler verantwortlich
ist) und ein Programmierer sollen bei der Bewältigung
dieser Aufgaben helfen; mit den Sachmitteln sollen vor
allem die Möglichkeiten zur Ein- und Ausgabe von
Textdaten dem heutigen technischen Stand angepaßt werden.
1. Am wenigsten nach außen auffällige Resultate wird die
Konsolidierung und Sicherung des bisher Erreichten zeigen:
Die interne Systemdokumentation mußte mit den bisher zur
Verfügung stehenden Mitteln ebenso (oder noch mehr) zu
kurz kommen wie die Beschreibungen zur Benutzung von
TUSTEP. Die bisher vorhandenen Beschreibungen können zum
Nachschlagen dienen, sind aber nicht als Einführung
geeignet. Sie sollen vervollständigt und möglichst um
eine TUSTEP-Einführung, die auch zum Selbststudium
geeignet ist, erweitert werden.
Um TUSTEP einem größeren Kreis zugänglich zu
machen, muß es auf weiteren Anlagen implementiert werden
(zum Zeitpunkt der Antragstellung war es nur auf SPERRY
1100-Anlagen verfügbar; inzwischen läuft es auch
unter dem IBM-Betriebssystem MVS), auch auf solchen, die bisher
nicht als zentrale Anlagen der Universität Tübingen im
Zentrum für Datenverarbeitung betrieben werden. Dabei
ist an die Betriebssysteme (in alphabetischer
Reihenfolge) BS2000, UNIX, VM, VMS gedacht; welche dieser
Implementierungen überhaupt und zu welchem Zeitpunkt
durchgeführt werden können, hängt auch davon ab, wann und
unter welchen Bedingungen uns diese Systeme zur Verfügung
stehen. - Eine weitere Aufgabe sehen wir darin, im
Laufe des Projekts eine Übertragung der Dokumentation,
der Fehlermeldungen und der Kommandosprache ins Englische
vorzubereiten.
2. Lösungen für neue Aufgabenstellungen können nur
(ähnlich wie schon bisher) in Zusammenarbeit mit
konkreten Einzelprojekten erarbeitet werden; vor allem auf
dem Gebiet der Register-Erstellung und der Lexikographie
sind auch bei bisherigen Projekten schon
Fragestellungen bzw. Arbeitsgänge aufgetreten, die noch
nicht ausreichend von TUSTEP unterstützt werden (z.B. der
Problemkreis der Lemmatisierung oder der redaktionellen
Arbeit an Registern). Hierzu ist neben der intensiveren
beratenden Begleitung solcher Einzelprojekte eine
detaillierte Analyse der dafür notwendigen
Grundoperationen und der Möglichkeit ihres Einbaus in
vorhandene oder neu zu schreibende Programme zu leisten.
3. Am schnellsten sichtbar werden die Verbesserungen der
Infrastruktur sein, die mit den Investitionsmitteln
zu erreichen sind:
Schon beschafft wurde ein Blattleser, mit dem sechs
verschiedene Schreibmaschinenschriften gelesen werden
können, und der eine bequeme und kostengünstige
Datenerfassung über die Schreibmaschine auch weiterhin
ermöglichen soll. In der Vergangenheit wurde dazu der
OCR-Leser der Universität Ulm in Anspruch genommen, der
jedoch inzwischen nicht mehr zur Verfügung steht.
Ebenfalls in Betrieb genommen wurde inzwischen ein Gerät
zur Datenübernahme von Disketten auf Magnetband; es
erschließt vor allem die verschiedenen Personal Computer
und Textverarbeitungssysteme als Eingabe-Medien für die
wissenschaftliche Textdatenverarbeitung. Mit diesem Gerät
können derzeit rund 200 verschiedene Formate von 8- und 5
1/4-Zoll-Disketten gelesen (und geschrieben) werden; 3
1/2-Zoll-Formate werden im Laufe des Jahres
hinzukommen. Das gleiche Gerät erlaubt auch, Daten, die
auf dem Großrechner erarbeitet wurden, vom Magnetband
auf Disketten zu überspielen und damit (z.B. für
Zwecke der Lehre) auf Personal Computern zu verwenden.
Noch vor Jahresende wird ein KDEM-Omnifont-Leser zur
Verfügung stehen. Er kann gedruckte Texte in einer
Vielzahl von verschiedenen Schriftarten und -größen
direkt aus Büchern einlesen und in einer für die
Weiterverarbeitung geeigneten Form abspeichern. Vor allem
für Projekte aus dem Bereich des Editionswesens, der
inhaltlichen oder formalen Erschließung und Beschreibung
von literarischen Texten, der Lexikographie und der
Dokumentation bedeutet dies nicht nur eine Erleichterung
und Beschleunigung der Arbeit, sondern ermöglicht auch
Arbeitsgänge, die wegen des mit der Datenerfassung über
Tastaturen verbundenen Aufwands bisher praktisch nicht
durchführbar waren.
Schließlich wird ein elektronischer Drucker mit großem
Zeichenvorrat, guter Druckqualität, akzeptabler
Druckgeschwindigkeit und gegenüber dem Lichtsatz deutlich
niedrigeren Kosten zur Ausgabe der erarbeiteten Daten zur
Verfügung stehen.
Der Betrieb der neuen Geräte ist Aufgabe des Zentrums
für Datenverarbeitung; sie stehen (bis auf den
Laserdrucker) den Forschungseinrichtungen des Landes
Baden-Württemberg unentgeltlich zur Verfügung.
Für die Programmierung und die Dokumentation wird wie
bisher die Abteilung Literarische und Dokumentarische
Datenverarbeitung des ZDV verantwortlich sein.
Die Anpassung von TUSTEP an neue Aufgabenstellungen
jedoch hat eine ähnlich intensive Zusammenarbeit mit
Projekten aus den entsprechenden
geisteswissenschaftlichen Fachgebieten zur Voraussetzung,
wie sie sich in der Vergangenheit schon bewährt hat.
Eine Einladung zu solcher Mitarbeit kann nun auch über
Tübingen hinaus ausdrücklich ausgesprochen werden:
denn dies war eine der Voraussetzungen für diese
Förderung, mit der unsere bisherige Arbeit als
Forschungsschwerpunkt des Landes anerkannt wurde.
Die Kunst des Wörterbuchmachens hat ja eine lange
Tradition und hat (z.B. im Bereich des älteren
Deutsch seit Anfang des 19. Jahrhunderts) trotz
verschiedener Qualität der entstandenen Lexika, die
zudem verschiedene Typen repräsentieren, schon lange ein
bestimmtes Niveau erreicht. Das Aufkommen der
EDV-Indices brachte hier einen Sprung, der keineswegs
nur positiv war. Der große Ausstoß, die geringere
Fehlerhaftigkeit und die Konsequenz in der Durchgestaltung
können die Beschränkung auf Graphematisches und
philologisch einfachste Gesichtspunkte nicht aufwiegen.
Die Ungeschicklichkeiten, die vielleicht
Kinderkrankheiten sind, reichen von schlechter Wahl der
Materialbasis über irreführende Kodierung und Sortierung
bis zu einer Typographie, die nur zu häufig die
Brauchbarkeit gefährdet. Zwar gab es hier durchaus
Verbesserungen und Fortschritte, aber es klafft doch
immer noch ein Abgrund zwischen guten Indices und
Konkordanzen und einem gepflegten Wörterbuch alter Art,
etwa einem Bedeutungswörterbuch mit Angabe von sinnvoll
abgegrenzten stehenden Wendungen, syntaktischer
Differenzierung, zusammenfassenden Bemerkungen zu
graphemischer und morphologischer Variation usw.
In dieser Situation ist es wünschenswert, daß die
EDV-Erzeugnisse wörterbuchähnlicher werden. Es ist
Ziel des Projekts, ein Verfahren zu entwickeln, das es dem
Philologen erleichtert, seine sprachlichen Kommentare,
Bedeutungsdifferenzierungen, seinen Sachverstand, vieles,
was die Kunst des Lexikographen ausmacht, in die
Lexika, die mit Maschinenhilfe entstehen, hineinzubringen.
Dabei wird der Bearbeiter einerseits vom Rechner zu
Präzision und weitgehender Konsequenz angehalten, und er
bekommt auch einige Hilfe, z.B. solche gegen die vielen
Unfälle früherer Wörterbuchmacher wie den Verlust oder
das Verlegen von Belegzetteln, Verschreibungen im
angeführten Text oder in den Stellenangaben, Veralten der
Materialbasis durch das Erscheinen neuer Ausgaben
oder ähnliches; andererseits soll etwas von der alten
Ausdrucksfreiheit zurückgewonnen werden, auf die die
Lexikographen des beginnenden EDV-Zeitalters allzu
bereitwillig verzichtet haben.
Folgende Hauptprobleme müßten auf diesem Weg gelöst werden:
Ergebnis des Projekts soll nicht ein bestimmtes Wörterbuch
sein, sondern ein Programmpaket als Angebot an Philologen,
etwas für die lexikalische Erschließung "ihres"
Textes zu tun, des Textes, mit dem sie sich z.B. editorisch
beschäftigen (vorderhand scheint es besser, sich Lexika
zu kleineren Corpora vorzunehmen als gleich ein
Langue-Wörterbuch). Die Programme können aber nicht im
leeren Raum entwickelt werden, sondern nur in der Praxis,
nämlich in Verbindung mit konkreten Lexikonplänen.
Die (durchaus noch offene) Reihe der Pläne umfaßt
Wörterbücher zum mittellateinischen Versroman
"Ruodlieb", zu den Schriften Heinrich Hallers, eines
bedeutenden spätmittelalterlichen Übersetzers
geistlicher Prosa ins Deutsche, zu deutschen mystischen
Texten und zu Gottfrieds von Straßburg "Tristan".
Angeregt wurde ein TUSTEP-Informationsdienst für die
TUSTEP-Benutzer außerhalb von Tübingen und die
Bildung einer überregionalen Interessengemeinschaft der TUSTEP-Benutzer.
Bei den abschließenden Überlegungen zur
Kombinierbarkeit der Heidelberger und Tübinger
Bemühungen um ein angemessenes Arbeitsinstrument für
die Geisteswissenschaftler wurde von Seite der Heidelberger
Teilnehmer die Frage gestellt, ob die Benutzeroberfläche
von TUSTEP veränderbar sei. Dies wurde verneint, weil
die Benutzeroberfläche ein wesentlicher Bestandteil der
Konzeption von TUSTEP und tief in der Struktur von TUSTEP
verankert ist. Die anwesenden TUSTEP-Anwender brachten zum
Ausdruck, daß kein Wunsch nach einer Änderung der
Benutzeroberfläche besteht.
Wilhelm Ott
Der Tübinger Forschungsschwerpunkt
"Wissenschaftliche Textdatenverarbeitung":
Bericht und Einladung zur Mitarbeit
Im März 1985 hat das Ministerium für Wissenschaft und
Kunst Baden-Württemberg einem Antrag der Universität
Tübingen entsprochen und stellt "zur Ergänzung der
Grundausstattung des o.g. Forschungsschwerpunktes" bis
Ende 1989 zusätzliche Mittel zur Verfügung.
I. Die vorhandene Grundausstattung
II. Ziele der Förderung
III. Zur Organisation
Paul Sappler (Deutsches Seminar)
Planungen zum Problemkreis
"Rechnergestützte Lexikographie und Registererstellung"
Das Teilprojekt "Rechnergestützte Lexikographie"
ergänzt den Forschungsschwerpunkt "Wissenschaftliche
Textdatenverarbeitung" insofern, als es eine spezifische
philologische Anwendung und Weiterentwicklung von
TUSTEP zum Ziel hat. Index- und Konkordanzherstellung
ist eine Standardaufgabe in TUSTEP; dafür sind reiche
Möglichkeiten vorhanden, die auch Ansätze zur
Lemmatisierung umfassen. Es liegt nun nahe und kommt wohl
einem Bedürfnis entgegen, diesen letztgenannten Bereich
auszubauen und den Übergang zum philologisch
verantworteten Wörterbuch anzustreben. Damit würde
eine Lücke in einer längeren Entwicklung geschlossen.
Eine wesentliche Aufgabe wird es sein, solche Informationen,
die nicht mit dem Text gegeben sind, sondern explizit oder
in Form von Anordnung ins Wörterbuch hineingekommen
sind, nach Möglichkeit auf weitere ähnliche Fälle
übertragbar zu machen.
Diskussion
Der unüberschaubare und rasch fluktuierende Markt von
Hardware und Software im PC-Bereich erschwert die Auswahl
geeigneter Geräte und Programme für den Arbeitsplatz des
Philologen. Wichtig ist in jedem Fall der Zugang zum
Großrechner mit seiner leistungsfähigen Software durch
Übertragung der Daten vom und zum PC. Die häufig
vertretene These von der Alternative zwischen Großrechner
und PC sollte daher korrigiert werden hin zu einer
sinnvollen Arbeitsteilung zwischen Großrechner und PC.
(Die Kurzfassungen der Referate wurden von den Referenten zur Verfügung gestellt.)
Zur
Übersicht über die bisherigen Kolloquien
tustep@zdv.uni-tuebingen.de - Stand: 2. September 2003