TUSTEP

Textdatenverarbeitung mit TUSTEP

Organisatorische Leistungen in TUSTEP

Das "Tübinger System von Textverarbeitungsprogrammen" TUSTEP wurde am Zentrum für Datenverarbeitung der Universität Tübingen entwickelt mit dem Ziel, ein leistungsfähiges Werkzeug zum wissenschaftlichen Umgang mit Textdaten zur Verfügung zu stellen.

Die Anfänge dieser Arbeiten gehen auf das Jahr 1966 und die folgenden Jahre zurück, als nach dem Vorbild des nichtnumerischen Unterprogrammpakets des Deutschen Rechenzentrums Darmstadt ein System von Unterprogrammen zur Zeichen- und Zeichenketten-Verarbeitung in FORTRAN entworfen und auf der Tübinger Anlage implementiert wurde. Dies erleichterte die Programmierung für damals betreute Projekte wie die metrische Analyse lateinischer Hexameter, die Konkordanz zur Vulgata oder die Edition und die Register zu den Werken Heinrich Kaufringers.

Aufgrund der Erfahrung mit solchen Projekten konnte der nächste Schritt getan werden, der die Programmierung in FORTRAN oder einer anderen "höheren" Programmiersprache für diese Art von Aufgaben überflüssig machte: Für die wichtigsten Grundoperationen der Textdaten-Verarbeitung wurden Programme bereitgestellt, deren Leistung vom Benutzer über Parameter spezifiziert werden kann und die in vielfältiger Weise für die Lösung verschiedenster Aufgabenstellungen zu kombinieren sind. Den Namen TUSTEP tragen diese Programme seit 1978.

Der Begriff Textdaten-Verarbeitung soll TUSTEP von dem, was heute üblicherweise unter Textverarbeitung verstanden wird, abgrenzen. Selbstverständlich gehören auch die für die Dokumenten-Erstellung notwendigen Funktionen wie Eingabe, Korrektur, Formatieren und Drucken von Texten (auch von fremdsprachlichen Texten in nicht-lateinischen Alphabeten) zum Leistungsangebot von TUSTEP, da diese in allen Wissenschaftsbereichen zum Zweck der Dokumentation und der Vorbereitung von Publikationen benötigt werden. TUSTEP wurde aber als Werkzeug vor allem für diejenigen Wissenschaften entwickelt, in denen Texte Objekte der Forschung sind: Philologien, Sprachwissenschaften, Literaturwissenschaften, historische Wissenschaften, Bibliothekswesen; Wissenschaften also, in denen nicht nur neue Texte als Produkt der eigenen wissenschaftlichen Arbeit erstellt und publiziert werden, sondern in denen schon existierende, überlieferte, schriftlich fixierte oder zu fixierende Texte (einschließlich literarischer Texte und historischer Quellen) durch kritische Neuedition gesichert, sprachlich und stilistisch analysiert, inhaltlich erschlossen, bibliographisch erfasst werden.

Dem tragen Grundoperationen der Textdaten-Verarbeitung (und entsprechende TUSTEP-Programme) Rechnung, die mit folgenden Schlagwörtern grob charakterisiert werden können:

Vergleichen von verschiedenen Textfassungen;
Korrigieren nicht nur interaktiv im Editor, sondern auch anhand vorbereiteter (u. U. automatisch erstellter) Korrekturanweisungen;
Zerlegen von Texten in (frei definierbare) Elemente (z. B. Wortformen);
Sortieren von Textelementen oder von längeren Texteinheiten nach beliebigen Alphabeten und einer Vielzahl anderer Kriterien;
Register erstellen durch Zusammenfassen sortierter Textelemente;
Bearbeiten von Textdaten durch vom Benutzer definierte Regeln zum Auswählen, Ersetzen, Umstellen, Ergänzen, Zusammenfassen, Vergleichen von Textteilen, durch Rechnen mit Zahlenwerten, die bereits im Text enthalten sind (z. B. Kalenderdaten) oder aus ihm gewonnen werden können (z. B. die Zahl der Wörter in einem Satz), und Ausgeben in verschiedenen Formaten, einschließlich solcher, die von anderer Software (z. B. zur statistischen Auswertung oder zur elektronischen Publikation) benötigt werden.

Aufgaben, die mit TUSTEP bearbeitet werden, reichen vom Schreiben einer Seminararbeit bis hin zum Erstellen von umfangreichen Bibliographien, Lexika, Indizes, Konkordanzen, Wörterbüchern, Editionen und natürlich auch von Monographien, jeweils einschließlich der automatischen Herstellung der Druckvorlagen für diese Werke in der vom Buchdruck gewohnten Qualität bzw. einschließlich der Bereitstellung der Daten in der Form (z. B. HTML, XML) und Codierung (z. B. Unicode), die für die elektronische Publikation erforderlich ist.

Neben den Programmen für die Grundoperationen der Textdaten-Verarbeitung enthält TUSTEP auch eine Reihe organisatorischer Leistungen, wie sie üblicherweise vom Betriebssystem eines Rechners bereitgestellt werden. Dies ermöglicht es, alle für die Textdaten-Verarbeitung notwendigen Funktionen, einschließlich der Datenhaltung und Datensicherung, auf Rechnern mit unterschiedlichen Betriebssystemen in gleicher Weise aufzurufen, und erspart damit dem Benutzer beim Wechsel auf einen Rechner mit einem anderen Betriebssystem nicht nur ein Umlernen, sondern erlaubt auch, bereits erstellte TUSTEP-Kommandofolgen unverändert zu übernehmen.

Eine für alle Rechner identische Benutzer-Oberfläche konnte nur dadurch erreicht werden, dass auf die Ausnutzung spezieller Eigenschaften einzelner Rechner und Betriebssysteme verzichtet wurde. Aus diesem Grund konnten insbesondere die graphischen Möglichkeiten der PC-Bildschirme nicht voll ausgenutzt werden.

Die Leistungen von TUSTEP werden ständig verbessert und erweitert, damit auch für neue Aufgabenstellungen der wissenschaftlichen Textdaten-Verarbeitung Lösungsmöglichkeiten bereitstehen; dabei werden auch neue Hardware und neue Betriebssystem-Entwicklungen berücksichtigt. Zu den Neuerungen der letzten Jahre zählen ein CGI-Interface, Erweiterungen zur einfacheren Bearbeitung von Texten, die nach SGML / XML / TEI codiert sind, sowie für PDF-Dateien die automatische Generierung von internen und externen Links, von Notizen und von Lesezeichen (bookmarks).

TUSTEP verdankt viele seiner Leistungen der Anregung, Kritik und Mitarbeit von Benutzern aus fast allen geisteswissenschaftlichen Disziplinen, auch von außerhalb der Universität Tübingen. Die für TUSTEP Verantwortlichen (Prof. Dr. Wilhelm Ott, Kuno Schälkle) sind auch weiterhin für Verbesserungsvorschläge dankbar.

Die folgende Aufstellung gibt einen Überblick über die wichtigsten TUSTEP-Programme für Grundoperationen der Textdaten-Verarbeitung und für organisatorische Leistungen (die Angaben in eckigen Klammern sind die jeweiligen Kommandonamen).

1. Grundoperationen der Textdaten-Verarbeitung in TUSTEP

EDIEREN

Eingeben, Ändern, Ersetzen und Durchsuchen von Textdaten am Bildschirm [#EDIERE]

Eingeben, Ändern, Durchsuchen und automatisches Abprüfen von strukturierten Daten über selbst definierte Masken (auch mit Web-Browser) [#MAKRO]

Automatische Korrektur von Textdaten über vorbereitete Korrekturanweisungen [#KAUSFUEHRE]

VERGLEICHEN

Vergleichen verschiedener Fassungen eines Textes; Protokollieren und Abspeichern der Unterschiede [#VERGLEICHE]

Zeilensynoptische Ausgabe der zu einem Grundtext festgestellten Textvarianten [#VAUFBEREITE]

BEARBEITEN

Auswählen, Ersetzen, Umstellen, Ergänzen, Zusammenfassen, Vergleichen von Textteilen nach angegebenen Regeln und Bedingungen; Rechnen mit Zahlenwerten (einschließlich Kalenderdaten), die bereits im Text enthalten sind oder aus ihm gewonnen werden können; Ausgeben in verschiedenen Formaten (auch für die elektronische Publikation oder zur Weiterverarbeitung außerhalb von TUSTEP) [#KOPIERE]

Ersetzen von Kürzeln durch Textteile (auch umfangreiche Textbausteine), die in einer eigenen Datei stehen [#EINFUEGE]

Verwalten und Aktualisieren von Querverweisen [#NUMMERIERE]

REGISTER VORBEREITEN

Erstellen von Registereinträgen durch Zerlegen von Texteinheiten in ihre Bestandteile oder durch Extrahieren gekennzeichneter Textteile; gegebenenfalls Ergänzen und Ändern von Textteilen; Ergänzen der Referenz; Unterscheidung zwischen verschiedenen Eintragstypen; Aufbau von Sortierfeldern (für das anschließende Sortieren) nach frei wählbaren Sortierkriterien und Sortieralphabeten [#RVORBEREITE]

SORTIERUNG VORBEREITEN

Bilden von Sortiereinheiten aus logisch zusammengehörenden Textteilen; Aufbau von Sortierfeldern (für das anschließende Sortieren) nach frei wählbaren Sortierkriterien (Auswahl und Reihenfolge bestimmter Textteile der Sortiereinheiten, Vorgabe von Sortierwerten für beliebige Zeichenfolgen) und Sortieralphabeten [#SVORBEREITE]

SORTIEREN

Ordnen von Datensätzen in eine aufsteigende oder fallende Reihenfolge, die durch die Sortierkriterien bestimmt ist, die in den Sortierfeldern enthalten sind [#SORTIERE]

Mischen bereits sortierter Daten [#MISCHE]

SORTIERUNG PRUEFEN

Automatisches Überprüfen (nach dem Sortieren), ob die Sortierschlüssel lang genug gewählt wurden, um die gewünschte Reihenfolge der einzelnen Sätze zu erreichen [#SPRUEFE]

REGISTER AUFBEREITEN

Zusammenfassen sortierter, gegebenenfalls hierarchisch gegliederter Registereinträge (Texteinheiten); Ergänzen und Ersetzen von Textteilen und Referenzen; Unterscheidung zwischen verschiedenen Eintragstypen; Berechnen absoluter und relativer Häufigkeiten [#RAUFBEREITE]

DRUCK AUFBEREITEN

Aufbereiten von Textdaten zum Ausdrucken

in der Form, in der die Daten in der Datei stehen, wobei Steuerzeichen nicht interpretiert, sondern wie die anderen Zeichen ausgegeben werden [#DVORBEREITE]
in frei wählbarem Format und frei wählbarer Anordnung (über im Text enthaltene Steuerzeichen), mit automatischer Silbentrennung und automatischem Zeilen- und Seitenumbruch einschließlich Randausgleich und Fußnoten [#FORMATIERE]
als Formulare (auch Adressaufkleber) [#FAUFBEREITE]

SETZEN

Typographisches Aufbereiten von Textdaten zur Ausgabe auf PostScript-Druckern oder (für professionellen Satz) auf PostScript-Satzbelichtern; dabei automatischer Zeilenumbruch (Blocksatz, Flattersatz, Tabellensatz) und automatischer Seitenumbruch mit lebenden Kolumnentiteln, Überschriften, Grundtext, Einschaltungen, Grafiken, Fußnoten, Marginalien, bis zu neun kritischen Apparaten; große Auswahl von Schriften und Sonderzeichen [#SATZ]

2. Organisatorische Leistungen in TUSTEP

ABLAUFSTEUERUNG: Ausführung/Steuerung von Kommandofolgen und Programmen; Einrichten und Ausführen eigener Kommandos (Makros) [#TUE, #MAKRO]
ARCHIVIERUNG, SICHERUNG: Archivierung von Dateien (auch von mehreren Versionen der gleichen Datei) in einer "Band-Datei", auch zum Daten-Transfer zwischen unterschiedlichen Rechnern; Information über den Inhalt der "Band-Datei" [#MBEINGABE, #MBAUSGABE, #MBKOPIERE, #MBINFORMIERE, #MBLABEL, #MBTEST, #*MBUPDATE]
DATEIVERWALTUNG: Einrichten, Anmelden, Abmelden, Umbenennen und Löschen von Dateien [#DATEI, #ANMELDE, #ABMELDE, #AENDERE, #LOESCHE]
DATENAUSTAUSCH: Import von Textdaten aus Dateien von anderen Programmen in TUSTEP-Dateien; Export von Textdaten aus TUSTEP-Dateien in System-Dateien (z. B. ASCII-Dateien) [#UMWANDLE]

3. Hinweise, Veranstaltungen

Ein Handbuch, das den Leistungsumfang von TUSTEP beschreibt, wird als PDF-Datei mit TUSTEP ausgeliefert; es ist in der jeweils aktuellen Fasssung auch im Internet unter http://www.tustep.uni-tuebingen.de/pdf/handbuch.pdf zugänglich. Zur Version 2016 ist auch eine gedruckte Fassung des Handbuchs erhältlich. - Das Handbuch ist als Nachschlagewerk konzipiert und zum Selbststudium kaum geeignet.

Das an der Universität Zürich entstandene TUSTEP-Wiki bietet weitere Informationen und Materialien zu TUSTEP. "Ziel ist eine Sammlung von Problemen, Lösungen und praktischen Beispielen für alle, die mit TUSTEP arbeiten, für Anfänger ebenso wie für fortgeschrittene Anwender". Es löste das zuvor an der Universität Zürich entstandene TUSTEP-Tutorial ab, das seit März 2013 nicht weiter gepflegt wird.

Die Rosetta Code Chrestomathie enthält inzwischen Lösungen zu rund 150 der dort gestellten Aufgaben aus der Feder von Thomas Kollatz (Akademie der Wissenschaften und der Literatur Mainz).

Die Einführungstexte "Lernbuch TUSTEP", bearbeitet von Winfried Bader (Tübingen: Niemeyer 1995, XII+384 S., ISBN 3-484-73019-6) und "Tustep für Einsteiger" von Peter Stahl (Würzburg: Königshausen & Neumann 1996, 308 S., ISBN 3-8260-1254-2) sind beide vergriffen. Sie waren als didaktische Einführung in das Arbeiten mit TUSTEP konzipiert. Sie sind auch für den ersten Einstieg in TUSTEP nur noch bedingt geeignet, da die Neuerungen und Erweiterungen der letzten 20 Jahre dort noch nicht berücksichtigt sein können; insbesondere wurde die dort beschriebene Syntax für das pattern matching (die freilich aus Gründen der Abwärtskompatibilität weiterhin verwendet werden kann) mit der Version 2012 durch eine neue Syntax ersetzt.

Fortgeschrittene TUSTEP-Nutzer treffen sich jährlich zu einem mehrtägigen TUSTEP-Workshop. Dort werden Neuerungen und einzelne Anwendungsbereiche ausführlich vorgestellt und die zugehörigen Techniken eingeübt. Diese Workshops fanden von 1999 bis 2016 jeweils Anfang Januar im Heinrich-Fabri-Institut der Universität Tübingen in Blaubeuren statt, im Januar 2017 und im Januar 2019 im Tagungszentrum Weingarten.

Im Oktober 1993 wurde in Würzburg die International TUSTEP User Group (ITUG) als Informations- und Kommunikationsforum für TUSTEP-Anwender gegründet. Sie bietet unter http://www.itug.de u. a. Informationen über Neuerungen in TUSTEP, über Kurse und andere Veranstaltungen, macht Musterlösungen und nützliche Prozeduren zugänglich; außerdem kann man dort eine mailing list zu TUSTEP subskribieren. Die Jahrestagungen der ITUG bieten mit ihrem Vortragsprogramm und - seit einigen Jahren vor der eigentlichen Tagung angebotenen - Workshops ein Forum für Anregungen und Informationsaustausch.

Information über mit TUSTEP durchgeführte Projekte findet sich auf der ITUG-homepage und (für die Zeit bis 2003) in den Protokollen der insgesamt 90 Kolloquien über die Anwendung der Elektronischen Datenverarbeitung in den Geisteswissenschaften an der Universität Tübingen, die zwischen November 1973 und Februar 2005 stattfanden. Die Protokolle dieser Kolloquien sind (bis einschließlich 83. Kolloquium vom 17.11.2003) in der Zeitschrift Literary and Linguistic Computing (bis 1985: ALLC-Bulletin, seit 2015: DSH = Digital Scholarship in the Humanities) veröffentlicht; sie sind vollständig unter http://www.tustep.uni-tuebingen.de/kolloq.html im WWW zugänglich.

TUSTEP ist eine Entwicklung des Zentrums für Datenverarbeitung der Universität Tübingen (seit 1966; von 1970 bis 2003 in der Abteilung Literarische und Dokumentarische Datenverabeitung unter der Leitung von Prof. Dr. Wilhelm Ott; seit 2003 mit finanzieller Unterstützung durch akademische Partnerinstitutionen). Seit Juni 2011 ist TUSTEP open source software unter der modified BSD Lizenz. Weitere Informationnen unter http://www.tustep.uni-tuebingen.de

... zur TUSTEP-Homepage

tustep@zdv.uni-tuebingen.de - Stand: 29. April 2019

Textdatenverarbeitung mit TUSTEP

Arbeitsweise, Einsatzzweck

Grundoperationen von TUSTEP

Organisatorische Leistungen in TUSTEP

Hinweise, Veranstaltungen

Arbeitsweise, Einsatzzweck

1. Grundoperationen der Textdaten-Verarbeitung in TUSTEP

2. Organisatorische Leistungen in TUSTEP

3. Hinweise, Veranstaltungen