Die somit umrissene Textdatenbank bildet nach wie vor das Kernstück des TITUS-Servers, der unter den Webadressen http://titus.uni-frankfurt.de und http://titus.fkidg1.uni-frankfurt.de zugänglich ist und von dem außer den Textmaterialien selbst verschiedene allgemeine Informationen aus dem Bereich der (indogermanischen und allgemeinen) Sprachwissenschaft, Lehrmaterialien wie Sprachenkarten oder Audioaufnahmen gesprochener Sprachen und anderes mehr abrufbar sind. Als Online-Textdatenbank will der TITUS-Thesaurus heute nicht mehr nur die Überlieferungen in alten indogermanischen Sprachen erschließen, sondern auch Textcorpora in "benachbarten" nicht-indogermanischen Sprachen, Texte in weniger verbreiteten modernen indogermanischen Sprachen, in kaukasischen Sprachen u.a.m. Der Einstieg erfolgt über die URL http://titus.uni-frankfurt.de/texte/texte.htm, der aktuelle Stand des verfügbaren Materials ist auf der Seite http://titus.uni-frankfurt.de/texte/texte2.htm dokumentiert.
Im Rahmen des TITUS-Projekts, das in diesem Bereich seit 1995 intensiv mit der Stiftung Preußischer Kulturbesitz zusammenarbeitet, werden die tocharischen Materialien sukzessive in folgender Weise aufgearbeitet: Zunächst erfolgt eine Digitalisierung bereits in Druckform ediert vorliegender Textmaterialien, wobei die Texte wie in den gedruckten Editionen selbst in Umschrift eingegeben werden. Der zweite Schritt besteht in der Digitalisierung der Originalhandschriften, wobei aus Qualitätsgründen, aber auch zum Zwecke der Konservierung, der Umweg über die Erstellung von Farbdias gewählt wurde, die dann mit einem hochauflösenden Dia-Scanner eingelesen werden. Mit den so digitalisierten Handschriften werden die elektronischen Texte neu kollationiert und, wo erforderlich, überarbeitet. Das eigentlich Retrieval wird durch eine Vorindizierung der digitalen Texte vorbereitet, für die das WordCruncher Retrieval System eingesetzt wird.
Das erste Ergebnis dieser Bearbeitung ist die über http://titus.fkidg1.uni-frankfurt.de/texte/tocharic/thtframe.htm verfügbare Ausgabe der edierten Teile der Berliner Sammlung (1100 Handschriften). Die auf HTML-Basis in Frames angelegte Ausgabe erschließt die Texte nach den Nummern des aktuellen Berliner Katalogs ("THT"), aber auch nach der Numerierung in den Druckausgaben (von Sieg/Siegling); gemeinsam mit den Texten, die in einer vereinfachten, in Unicode (UTF-8) codierten Umschrift gehalten sind, werden, soweit verfügbar, Bilder der betreffenden Handschriftenblätter bereitgestellt (ca. 350 Handschriften sind bisher nicht auffindbar gewesen; es handelt sich vermutlich um Kriegsverluste).
Für das eigentliche linguistische Retrieval (Suche nach Wörtern, Wortformen etc. und ihren Belegstellen) hat das TITUS-Projekt 1996 (mit Unterstützung der WordCruncher Company) einen WordCruncher Web-Server einrichten können, mit dem die umfangreichen Leistungsmerkmale dieses (von der Brigham Young University entwickelten) Retrievalsystems online verfügbar gemacht werden können (siehe http://titus.fkidg1.uni-frankfurt.de/texte/tituswc2.htm). Dies beinhaltet insbesondere die Möglichkeit einer sprachspezifischen Indizierung auch gemischtsprachiger Texte, die die Besonderheiten der jeweiligen Sprach- und Schriftstrukturen (z.B. alphabetische Anordnung, Gleichwertigkeit unterschiedlicher Zeichen etc.) zu berücksichtigen gestattet. Die Nachteile des WordCruncher Web-Servers bestehen im wesentlichen darin, dass die Codierung der Texte nach wie vor auf einer 8-Bit-Basis erfolgen muss, was die Notwendigkeit sich überlappender Spezialfonts mit sich bringt ("Font mapping"), und dass die Nutzbarkeit des Systems plattformabhängig ist, da es bisher lediglich für MS-Windows-Oberflächen verfügbar ist. Es kommt hinzu, dass für die Online-Kommunikation ein spezifisches Protokoll verwendet wird, was vielfach zu Übertragungsproblemen führt.
Da es zudem unsicher ist, ob und in welcher Form das WordCruncher-System
weitergepflegt wird, wird im Rahmen des TITUS-Projekts derzeit ein eigenständiges Retrievalsystem entwickelt, das entsprechende Analysemöglichkeiten in einer HTTP-basierten
Online-Bearbeitung bietet. Grundlage dieses Systems ist strukturierter Text auf HTML-Grundlage, der in Unicode codiert und, entsprechend dem jeweils üblichen Referenzierungssystem, in Einheiten (z.B. Text, Buch, Kapitel, Absatz, Satz oder Handschrift, Seite, Zeile)
zerlegt ist. Im Laufe einer Vorindizierung werden sämtliche Wortformen, die in dem so
aufbereiteten Text enthalten sind, mit ihrer Referenzangabe in einer Datenbank abgelegt; der
Zugriff auf diesen Index kann dann durch manuelle Eingabe in einem Suchformular erfolgen (textbezogen:
http://titus.fkidg1.uni-frankfurt.de/texte/etcc/toch/tocha/tochalex.htm;
textunabhängig:
http://titus.fkidg1.uni-frankfurt.de/database/titusinx/titusinx.htm),
aber auch über Hyperlinks, mit denen jedes Wort im Text
versehen ist. Ein Prototyp dieses Ausgabemodus ist für das A-tocharische Corpus über
http://titus.uni-frankfurt.de/texte/texte2.htm#toch
bzw.
http://titus.fkidg1.uni-frankfurt.de/texte/etcc/toch/tocha/tocha.htm verfügbar.
Durch die zweiteilige Grundkonzeption - Verknüpfung reiner Textdaten mit einer referentiellen Datenbank - lässt sich nicht nur der Aufwand des Taggings in den eigentlichen Textfiles auf ein Minimum reduzieren, was der Übertragungsgeschwindigkeit im Netz zugute kommt, sondern es können mit geringem Aufwand auch weitergehende Retrievalelemente hinzugegeben werden. So ist das System bereits jetzt in der Lage, beliebige tocharische Verbalformen, auch ungeachtet eventueller Schreibvariationen, korrekt zu bestimmen. So wird z.B. bei Aktivierung des betreffenden Hyperlinks durch Anklicken der Verbalformen nämseñc "sie verneigen sich" oder kumseñc "sie kommen" in dem A-tocharischen Text THT 634 ( http://titus.fkidg1.uni-frankfurt.de/texte/etcc/toch/tocha/tocha001.htm) auf dem TITUS-NT-Server ein ASP-Script aufgerufen ( http://titus.fkidg1.uni-frankfurt.de/database/titusinx/titusinx.asp?LXLANG=58285&LXWORD=nE400mseF100cE400&LCPL=0&TCPL=0&C=H&PF=26), das nicht nur sämtliche Belegstellen dieser Formen in den Texten aus der Datenbank extrahiert, sondern auch ihre Bestimmung als 3. Person Plural Präsens Aktiv; in der Ausgabeseite selbst ist weiter ein Hyperlink auf die betreffende Verbalwurzel (näm- "(sich) verneigen" bzw. käm- "kommen") enthalten, der seinerseits über einen ASP-Aufruf zur Ausgabe der kompletten Paradigmen dieser Verben führt ( http://titus.fkidg1.uni-frankfurt.de/database/titusinx/tochverb.asp?R=kE400m2D00). Es sei angemerkt, dass die Verwendung von Unicode bei der erforderlichen Übergabe von Parametern in den URL-Kommandozeilen heute noch nicht möglich ist, weshalb die Angaben in eine gemischte ASCII-Notierung umgesetzt werden müssen (z.B. kE400m2D00 für käm-).
Bei der Bearbeitung des Avesta-Corpus versucht das TITUS-Projekt, diesen Grundbedingungen gerecht zu werden, indem es nicht einfach den kritischen Text der bis heute maßgeblichen Ausgabe von K.F. Geldner reproduziert, sondern die verschiedenen Textschichten als solche herauszuarbeiten versucht, was auch eine Restituierung von (in den Handschriften und/oder der Druckausgabe meist abgekürzt notierten) Repetitionen umfasst (cf. http://titus.uni-frankfurt.de/texte/etcs/iran/airan/avesta/avest.htm). Für den Text der sog. Yasna-Liturgie wird darüber hinaus eine Handschriftenkonkordanz aufbereitet, die ein Retrieval der gesamten handschriftlichen Variation einer gegebenen Wortform ermöglichen soll; ein Prototyp ist bereits abrufbar (cf. z.B. http://titus.uni-frankfurt.de/texte/etcs/iran/airan/avesta/yasna/yasna044.htm: durch Anklicken des mit der Wortform dātā in Y. 43,13c verknüpften Hyperlinks wird wiederum ein ASP-Script aufgerufen, das nicht nur sämtliche zehn möglichen Bestimmungen dieser Wortform aus der Datenbank extrahiert, sondern auch die handschriftlichen Varianten, die für sie verfügbar sind ( http://titus.fkidg1.uni-frankfurt.de/database/titusinx/titusinx.asp?LXLANG=58269&LXWORD=d0101t0101&LCPL=0&TCPL=0&C=H&PF=25).
Der Umgang mit diesem Problem hat schon in der klassischen Editionspraxis zu unterschiedlichen Lösungsansätzen geführt, wobei die Abbildung von Wortgrenzen gemeinhin leichter durchzuführen war, wenn man anstelle der Originalschrift (meist der Devanāgarī-Schrift) eine Latein-Umschrift wählte. Da die auf dem TITUS-Server verfügbaren elektronischen Fassungen der vedischen Texte (derzeit ca. 75% des gesamten vedischen Corpus) ihrerseits meist auf gedruckten Ausgaben beruhen, spiegeln sie die unterschiedlichen Gepflogenheiten derzeit noch weitgehend wieder, so dass ein einheitliches Retrieval für jede Wortform ungeachtet ihrer umgebungsbedingten formalen Variation noch nicht gewährleistet werden kann. Die Bedingung für ein solches Retrieval wäre die - in der indischen Tradition selbst verankerte - Aufarbeitung der Texte in einer Erfassungsvariante, bei der jede Wortform ungeachtet ihres Kontexts in einer Normalform eingesetzt wird; ein solcher "Pada-Pāṭha" (Pada-Patha) ist bisher aber nur für wenige der Texte verfügbar (cf. z.B. die TITUS-Version des bedeutendsten Texts der Sammlung, der R̥gveda-Saṃhitā, (Rgveda-Samhita) bei der der undifferenzierte Ausgangstext, der sog. "Saṃhitā-Pāṭha" (Samhita-Patha), und der Pada-Pāṭha (Pada-Patha) einander interlinear gegenübergestellt sind: http://titus.uni-frankfurt.de/texte/etcs/ind/aind/ved/rv/mt/rv.htm). In der letztlich angestrebten Lösung sollen die Pada-Pāṭha- (Pada-Patha-)Versionen gewissermaßen unsichtbar in den Hintergrund treten und lediglich zur eindeutigen Referenzierung der im fließenden Text enthaltenen Wortformen dienen. Ein besonderes Problem wird sich dabei einstellen, wenn, wie beabsichtigt, die Texte insgesamt auch in Unicode-codierter Devanāgarī-Schrift aufbereitet werden sollen (vgl. den Prototyp für die R̥gveda-Saṃhitā (Rgveda-Samhita) unter http://titus.uni-frankfurt.de/texte/etcd/ind/aind/ved/rv/mt/rv.htm); denn die korrekte Positionierung der Hyperlinks wird es in diesem Fall erforderlich machen, Tags mitten in ein gegebenes "Silbenzeichen" ("Akṣara" - Aksara) hineinzusetzen, was jedoch einen Verstoß gegen Unicode-Konventionen (und dementsprechend unvorhersagbare Resultate bei der Browser-Wiedergabe) bedeuten kann. Es sei angemerkt, dass die Verwendung von Unicode-codierter Devanāgarī auf Webseiten zur Zeit ohnehin noch vielfältige Probleme mit sich bringt, insbesondere bei vedischen Texten, bei denen das Zeicheninventar um verschiedene Akzentzeichen ergänzt ist.
Eine zweite Problematik, die durch die arabische Schrift bedingt ist, betrifft die Lautgestalt der Wortformen. Da die arabischen Buchstaben im großen und ganzen nur das Konsonantengerippe einer gegebenen Wortform darstellen, wird eine automatische Umsetzung von der arabischen in eine Lateingraphie zunächst, wie im o.g. Text, nur eine fremd anmutende transliterative Darstellung ermöglichen. Für ein linguistisches Retrieval wäre es aber zumindest wünschenswert, wenn die tatsächliche Lautung der Wörter, unter Einschluss ihrer Vokale, die Grundlage bilden würde. Diese Aufgabe soll in Zukunft wiederum über eine verknüpfte Datenbank gelöst werden.
An folgenden Weiterentwicklungen wird derzeit gearbeitet:
Achtung: Dieser Text ist mit Unicode / UTF8 kodiert. Um die in ihm erscheinenden Sonderzeichen auf Bildschirm und Drucker sichtbar zu machen, muß ein Font installiert sein, der Unicode abdeckt wie z.B. der TITUS-Font Titus Cyberbit Unicode. |
aus: Protokoll des 83. Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften am 17. November 2001