Aus dem Protokoll des
63. Kolloquiums
über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 11. Februar 1995
Winfried Bader (Tübingen)
Internationale Standards zur Textauszeichnung
(SGML, TEI)
Der Vortrag entstand in der Folge des Besuches eines Workshops
der TEI (Text Encoding Initiative) im Dezember 1994 in Chicago,
bei dem es darum ging, die Codierungsvorschläge der TEI unter dem
Gesichtspunkt der Anwendung und Weitervermittlung kennenzulernen.
Bei der Texterfassung
im Computer ist zu unterscheiden zwischen dem
character encoding (Repräsentation der Einzelzeichen, bits und bytes),
dem page encoding (Repräsentation der typographischen
Realisierung einer Seite,
z.B. PostScript) und dem
text encoding (Repräsentation eines Textes mit seinen Strukturen und zusätzlichen interessanten Informationen).
Textauszeichnung (text encoding oder text markup) ist eine Methode, eine oder mehrere Interpretationen des Textes explizit zu machen.
Textauszeichnung ist immer eine Hinzufügung von inhaltlichem Wissen zu der bloßen Repräsentation der einzelnen Zeichen.
Die Standard Generalized Markup Language (SGML)
SGML ist ein Regelwerk zur Definition einer Textauszeichnungssprache mit
der Grundidee,
die Daten und die Verarbeitung strikt voneinander zu trennen.
Das Ziel ist
- die Wiederverwendung von Texten in verschiedener Form und in
verschiedenen Verarbeitungsgängen
- die Systemunabhängigkeit und Austauschbarkeit der Daten
- die Möglichkeit der Anreicherung von Texten mit Intelligenz (Zusatzinformationen, Interpretationen)
- eine wohlorganisierte Struktur und klar definierte Schnittstellen.
Die Dokument-Analyse
Da Textauszeichnung ein interpretativer Vorgang ist, muß ihr stets eine Dokument-Analyse vorausgehen.
Dazu gehört zum einen das Untersuchen des Inhalts und der
Struktur des Dokumentes, um die
- Komponenten des Dokumentes festzustellen und zu benennen
- ihr Verhältnis untereinander zu bestimmen
- ihre Eigenheiten zu erkennen,
und zum anderen das Abstecken der zusätzlich benötigten
außertextlichen Informationen und Ziele hinsichtlich
- Herkunft, Quellenlage und situativem Kontext des Dokuments
- der organisatorischen Voraussetzungen für die Erfassung
und Auszeichnung
- der technischen und inhaltlichen Ziele und Verwendungen des elektronischen Texts.
Bei der konkreten Auszeichnungsarbeit gibt es ein Abwägen zwischen
zu viel (kostet Zeit, sichert aber die vielfältige Verwendung) und
zu wenig (wichtige benötigte Information kann später fehlen) Auszeichnung.
Als Richtlinie kann gelten: Die durch die Auszeichnung eingetragene Analyse des Textes muß
wahr, hilfreich und handhabbar sein.
Die Document Type Definition (DTD)
Die in der Dokument-Analyse festgestellte Struktur eines Textes wird in
der DTD nach den Regeln von SGML in Form eines Inhaltsmodells (content model)
wiedergegeben. Das Dokument wird dabei vollständig in Form von hierarchischen
Elementen beschrieben, beginnend beim größten Element (zugleich der
Dokumenttyp) bis hin zu den einzelnen Zeichen, aus denen sich der Text
zusammensetzt. Dabei wird für jedes Element vollständig mit
Reihenfolge und Häufigkeit angegeben, aus welchen untergeordneten
Elementen es besteht. So besteht z.B. ein Element TEXT aus einem oder
mehreren Elementen ÜBERSCHRIFT, denen jeweils ein oder mehrere
Elemente ABSCHNITT folgen müssen. Eine ÜBERSCHRIFT besteht aus Daten
(einzelnen Zeichen, Buchstaben), ein ABSCHNITT aus Daten oder Elementen HERVORHEBUNG, von denen jedes wiederum aus Daten besteht. Damit ist ein einfacher Text komplett beschrieben.
Man sieht daran zwei Dinge: Vor jeder Auszeichnung eines
konkreten Textes muß die Erstellung einer entsprechenden DTD erfolgen. Andrerseits ist zu erwarten, daß eine DTD auf viele gleichartige Texte
zutrifft, so daß man für eine konkrete Textauszeichunng
eine vorhandene, passende DTD anwenden kann. An diesem Punkt setzt
die TEI an.
Die Text Encoding Initiative (TEI)
Die Text Encoding Initiative ist ein Projekt, in dem sich 1987 die
Association for Computers and the Humanities (ACH), die
Association for Computational Linguistics (ACL) und die
Association for Literary and Linguistics Computing (ALLC) zusammengeschlossen haben, um ein Standardschema zur Textauszeichnung
zu erarbeiten. Die Beratungen und Erarbeitungen, zu denen auch viele
weitere Vereinigungen aus dem Gebiet der Text- und Bibliothekswissenschaft beitrugen, endeten mit der Veröffentlichung der ca. 1300 Seiten umfassenden Richtlinien
Guidelines for Electronic Text Encoding and Interchange
(TEI P3) im Mai 1994.
Die Richtlinien sind in gedruckter Form oder auf CD-ROM als DynaText edition unter folgender Adresse zu beziehen:
TEI Orders,
Oxford University Computing Services,
13 Banbury Road,
Oxford OX2 6NN, GB. Außerdem sind die Richtlinien
im World Wide Web unter dem URL
http://etext.virginia.edu/TEI.html
zugänglich.
Die Richtlinien der TEI sind
im Kern SGML-konforme DTDs. Vorgefertigte DTDs werden bereitgestellt, so
daß AnwenderInnen - nach einer eingehenden eigenen Dokument-Analyse -
die passenden Elemente direkt auf ihren Text anwenden können, ohne
mühsam sich selbst um die notwendigen Definitionen zu sorgen. Texte,
die nach den Richtlinien der TEI ausgezeichnet sind, sind
SGML-konforme Dokumente, die sich mit jeder SGML-Software bearbeiten
lassen.
Der entscheidende Vorteil in der Anlage der TEI-DTDs ist ihr modularer
Aufbau. Eine allgemeine DTD, die im Kern auf alle Texte zutrifft,
kann je nach Textart (Prosa, Poesie, Drama, gesprochene Sprache) und Ziel der Erfassung (Textkritik, linguistische Analyse) um spezielle
DTDs erweitert werden.
Obligat für alle Texte, die entsprechend den DTDs der TEI ausgezeichnet werden,
ist der TEI-Header. Er enthält die "bibliographische" Information über
das betreffende elektronische Dokument. Es ist die elektronische "Titelseite".
Der Header enthält Informationen über den Inhalt des Dokumentes, die (gedruckte/handgeschriebene) Vorlage,
die Codierungskonventionen, die Verfügbarkeit, die Verantwortlichen und die Korrekturen. Der Header dient dazu, das Dokument eindeutig
identifizierbar zu machen. Für die Archivierung und Dokumentation wird
der/die Bibliothekar/in hieraus die notwendigen Informationen zur
Erstellung des "Karteikärtchens" über dieses elektronische Dokument
nehmen. Das Dokument wird durch den Header zitierfähig (und damit auch
der/diejenige, der/die den Text in die elektronische Form gebracht
und ausgezeichnet hat).
Beispiel
Als konkretes Beispiel der Auszeichnung eines Textes soll das Anbringen
eines Querverweises dienen. Das Beispiel zeigt das tagging der Elemente mit Anfangs- und Endekennung und die Möglichkeit, einem Element im Anfangs-tag Attribute zuzuschreiben. Für den Querverweis
muß das Element, auf das verwiesen wird, eine eindeutige ID haben, die als Attribut bei jedem Element möglich ist (<div3 id=kap070103>). Damit kann durch Angabe dieser ID mit einem Attribut des Typs IDREF von einem anderen Element (<ref target=kap070103>) darauf verwiesen werden.
<head>2.5 Der Querverweismechanismus</head>
<p> ... Siehe unten in <ref target=kap070103>Kapitel 7.1.3</ref>
<-- Weiter unten im Dokument -->
<div3 id=kap070103>
<head>7.1.3 ....
Die Verbindung zwischen den beiden Textstellen ist damit eindeutig
hergestellt. Es liegt nun an der Verarbeitungssoftware, ob dieser
Querverweis beim Anschauen (browsen) wie ein Hyperlink benutzt werden kann.
Für die Auszeichnung von "Hyperlinks" stellt die TEI im Grunde
die gleichen, aber viel reichhaltigeren Möglichkeiten zur
Verfügung wie das bekannte HTML (Hyper Text Markup Language).
Es liegt an der Einfachheit und Beschränktheit der sonstigen
Möglichkeiten von HTML, daß es dafür bereits weitverbreitete Software gibt,
die ein Browsen unter Benutzung der Hyperlinks zufriedenstellend ermöglicht.
Für die komplizierteren SGML-DTDs, wie sie die TEI
bereitstellt, ist die Software noch nicht soweit.
Für die wissenschaftliche Auszeichnung von Texten
ist die HTML-DTD jedoch ungeeignet. HTML und TEI verhalten sich
zueinander etwa wie Tageszeitung und historisch-kritische Edition.
Softwareanforderungen für SGML-Dokumente
SGML ist eine deskriptive Textauszeichnung. Sie hat direkt nichts mit der Weiterverarbeitung zu tun. SGML-Dokumente können auf verschiedene Weise weiterverarbeitet und weiterverwendet werden,
wofür es zahlreiche Software gibt. Nicht zuletzt kann TUSTEP vorzüglich für die Weiterverarbeitung von SGML-Dokumenten eingesetzt werden. Echte SGML Software ist in der Lage, SGML-konforme DTDs einzulesen, diese zu verstehen und damit dieser DTD entsprechende Dokumente zu verarbeiten.
Die Software zur Verarbeitung von SGML-Dokumenten kann in verschiedene
Aufgabenbereiche eingeteilt werden: