Protokoll des 63. Kolloquiums

Aus dem Protokoll des 63. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 11. Februar 1995

Winfried Bader (Tübingen)

Internationale Standards zur Textauszeichnung (SGML, TEI)

Der Vortrag entstand in der Folge des Besuches eines Workshops der TEI (Text Encoding Initiative) im Dezember 1994 in Chicago, bei dem es darum ging, die Codierungsvorschläge der TEI unter dem Gesichtspunkt der Anwendung und Weitervermittlung kennenzulernen.

Bei der Texterfassung im Computer ist zu unterscheiden zwischen dem character encoding (Repräsentation der Einzelzeichen, bits und bytes), dem page encoding (Repräsentation der typographischen Realisierung einer Seite, z.B. PostScript) und dem text encoding (Repräsentation eines Textes mit seinen Strukturen und zusätzlichen interessanten Informationen). Textauszeichnung (text encoding oder text markup) ist eine Methode, eine oder mehrere Interpretationen des Textes explizit zu machen. Textauszeichnung ist immer eine Hinzufügung von inhaltlichem Wissen zu der bloßen Repräsentation der einzelnen Zeichen.

Die Standard Generalized Markup Language (SGML)

SGML ist ein Regelwerk zur Definition einer Textauszeichnungssprache mit der Grundidee, die Daten und die Verarbeitung strikt voneinander zu trennen. Das Ziel ist

die Wiederverwendung von Texten in verschiedener Form und in verschiedenen Verarbeitungsgängen
die Systemunabhängigkeit und Austauschbarkeit der Daten
die Möglichkeit der Anreicherung von Texten mit Intelligenz (Zusatzinformationen, Interpretationen)
eine wohlorganisierte Struktur und klar definierte Schnittstellen.

Die Dokument-Analyse

Da Textauszeichnung ein interpretativer Vorgang ist, muß ihr stets eine Dokument-Analyse vorausgehen. Dazu gehört zum einen das Untersuchen des Inhalts und der Struktur des Dokumentes, um die

Komponenten des Dokumentes festzustellen und zu benennen
ihr Verhältnis untereinander zu bestimmen
ihre Eigenheiten zu erkennen, und zum anderen das Abstecken der zusätzlich benötigten außertextlichen Informationen und Ziele hinsichtlich
Herkunft, Quellenlage und situativem Kontext des Dokuments
der organisatorischen Voraussetzungen für die Erfassung und Auszeichnung
der technischen und inhaltlichen Ziele und Verwendungen des elektronischen Texts.

Bei der konkreten Auszeichnungsarbeit gibt es ein Abwägen zwischen zu viel (kostet Zeit, sichert aber die vielfältige Verwendung) und zu wenig (wichtige benötigte Information kann später fehlen) Auszeichnung. Als Richtlinie kann gelten: Die durch die Auszeichnung eingetragene Analyse des Textes muß wahr, hilfreich und handhabbar sein.

Die Document Type Definition (DTD)

Die in der Dokument-Analyse festgestellte Struktur eines Textes wird in der DTD nach den Regeln von SGML in Form eines Inhaltsmodells (content model) wiedergegeben. Das Dokument wird dabei vollständig in Form von hierarchischen Elementen beschrieben, beginnend beim größten Element (zugleich der Dokumenttyp) bis hin zu den einzelnen Zeichen, aus denen sich der Text zusammensetzt. Dabei wird für jedes Element vollständig mit Reihenfolge und Häufigkeit angegeben, aus welchen untergeordneten Elementen es besteht. So besteht z.B. ein Element TEXT aus einem oder mehreren Elementen ÜBERSCHRIFT, denen jeweils ein oder mehrere Elemente ABSCHNITT folgen müssen. Eine ÜBERSCHRIFT besteht aus Daten (einzelnen Zeichen, Buchstaben), ein ABSCHNITT aus Daten oder Elementen HERVORHEBUNG, von denen jedes wiederum aus Daten besteht. Damit ist ein einfacher Text komplett beschrieben. Man sieht daran zwei Dinge: Vor jeder Auszeichnung eines konkreten Textes muß die Erstellung einer entsprechenden DTD erfolgen. Andrerseits ist zu erwarten, daß eine DTD auf viele gleichartige Texte zutrifft, so daß man für eine konkrete Textauszeichunng eine vorhandene, passende DTD anwenden kann. An diesem Punkt setzt die TEI an.

Die Text Encoding Initiative (TEI)

Die Text Encoding Initiative ist ein Projekt, in dem sich 1987 die Association for Computers and the Humanities (ACH), die Association for Computational Linguistics (ACL) und die Association for Literary and Linguistics Computing (ALLC) zusammengeschlossen haben, um ein Standardschema zur Textauszeichnung zu erarbeiten. Die Beratungen und Erarbeitungen, zu denen auch viele weitere Vereinigungen aus dem Gebiet der Text- und Bibliothekswissenschaft beitrugen, endeten mit der Veröffentlichung der ca. 1300 Seiten umfassenden Richtlinien Guidelines for Electronic Text Encoding and Interchange (TEI P3) im Mai 1994. Die Richtlinien sind in gedruckter Form oder auf CD-ROM als DynaText edition unter folgender Adresse zu beziehen: TEI Orders, Oxford University Computing Services, 13 Banbury Road, Oxford OX2 6NN, GB. Außerdem sind die Richtlinien im World Wide Web unter dem URL http://etext.virginia.edu/TEI.html zugänglich.

Die Richtlinien der TEI sind im Kern SGML-konforme DTDs. Vorgefertigte DTDs werden bereitgestellt, so daß AnwenderInnen - nach einer eingehenden eigenen Dokument-Analyse - die passenden Elemente direkt auf ihren Text anwenden können, ohne mühsam sich selbst um die notwendigen Definitionen zu sorgen. Texte, die nach den Richtlinien der TEI ausgezeichnet sind, sind SGML-konforme Dokumente, die sich mit jeder SGML-Software bearbeiten lassen. Der entscheidende Vorteil in der Anlage der TEI-DTDs ist ihr modularer Aufbau. Eine allgemeine DTD, die im Kern auf alle Texte zutrifft, kann je nach Textart (Prosa, Poesie, Drama, gesprochene Sprache) und Ziel der Erfassung (Textkritik, linguistische Analyse) um spezielle DTDs erweitert werden.

Obligat für alle Texte, die entsprechend den DTDs der TEI ausgezeichnet werden, ist der TEI-Header. Er enthält die "bibliographische" Information über das betreffende elektronische Dokument. Es ist die elektronische "Titelseite". Der Header enthält Informationen über den Inhalt des Dokumentes, die (gedruckte/handgeschriebene) Vorlage, die Codierungskonventionen, die Verfügbarkeit, die Verantwortlichen und die Korrekturen. Der Header dient dazu, das Dokument eindeutig identifizierbar zu machen. Für die Archivierung und Dokumentation wird der/die Bibliothekar/in hieraus die notwendigen Informationen zur Erstellung des "Karteikärtchens" über dieses elektronische Dokument nehmen. Das Dokument wird durch den Header zitierfähig (und damit auch der/diejenige, der/die den Text in die elektronische Form gebracht und ausgezeichnet hat).

Beispiel

Als konkretes Beispiel der Auszeichnung eines Textes soll das Anbringen eines Querverweises dienen. Das Beispiel zeigt das tagging der Elemente mit Anfangs- und Endekennung und die Möglichkeit, einem Element im Anfangs-tag Attribute zuzuschreiben. Für den Querverweis muß das Element, auf das verwiesen wird, eine eindeutige ID haben, die als Attribut bei jedem Element möglich ist (<div3 id=kap070103>). Damit kann durch Angabe dieser ID mit einem Attribut des Typs IDREF von einem anderen Element (<ref target=kap070103>) darauf verwiesen werden.

<head>2.5 Der Querverweismechanismus</head>
<p> ... Siehe unten in <ref target=kap070103>Kapitel 7.1.3</ref>
<-- Weiter unten im Dokument -->
<div3 id=kap070103>
<head>7.1.3 ....

Die Verbindung zwischen den beiden Textstellen ist damit eindeutig hergestellt. Es liegt nun an der Verarbeitungssoftware, ob dieser Querverweis beim Anschauen (browsen) wie ein Hyperlink benutzt werden kann. Für die Auszeichnung von "Hyperlinks" stellt die TEI im Grunde die gleichen, aber viel reichhaltigeren Möglichkeiten zur Verfügung wie das bekannte HTML (Hyper Text Markup Language). Es liegt an der Einfachheit und Beschränktheit der sonstigen Möglichkeiten von HTML, daß es dafür bereits weitverbreitete Software gibt, die ein Browsen unter Benutzung der Hyperlinks zufriedenstellend ermöglicht. Für die komplizierteren SGML-DTDs, wie sie die TEI bereitstellt, ist die Software noch nicht soweit. Für die wissenschaftliche Auszeichnung von Texten ist die HTML-DTD jedoch ungeeignet. HTML und TEI verhalten sich zueinander etwa wie Tageszeitung und historisch-kritische Edition.

Softwareanforderungen für SGML-Dokumente

SGML ist eine deskriptive Textauszeichnung. Sie hat direkt nichts mit der Weiterverarbeitung zu tun. SGML-Dokumente können auf verschiedene Weise weiterverarbeitet und weiterverwendet werden, wofür es zahlreiche Software gibt. Nicht zuletzt kann TUSTEP vorzüglich für die Weiterverarbeitung von SGML-Dokumenten eingesetzt werden. Echte SGML Software ist in der Lage, SGML-konforme DTDs einzulesen, diese zu verstehen und damit dieser DTD entsprechende Dokumente zu verarbeiten. Die Software zur Verarbeitung von SGML-Dokumenten kann in verschiedene Aufgabenbereiche eingeteilt werden:

Checker, Parser: Programme, die die Syntax und die Konformität eines SGML-Dokumentes bezüglich einer DTD abprüfen.
Editor: Unterstützung beim Schreiben von tags; Umsetzung einer DTD in vorgegebene Strukturen zur Texterfassung.
Konvertierer: Konvertierung von bestimmten Datenformaten (Textverarbeitung) in SGML-Dokumente.
Retrieval: Suchen und Recherchieren unter Einbeziehung der ausgezeichneten Informationen.
Browser: Anzeigen von SGML-Dokumenten am Bildschirm unter typographischer Auswertung der tags.
Formatter: Satz und Druck von SGML-Dokumenten in einem festzulegenden Stil; Umsetzung von tags in typographische Anweisungen und Unterdrückung von bestimmten Elementen.

aus: Protokoll des 63. Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften am 11. Februar 1995