Erst in den sechziger Jahren ging man erneut an das Publikationsvorhaben und griff den Gedanken an die fünfte Abteilung der Weimarer Ausgabe erneut auf. Zwei Hauptgründe führten dazu, daß die Briefe an Goethe letzten Endes nicht als Volltext, sondern in Form von Regesten veröffentlicht wurden:
Seit die ersten Bände der Regestausgabe erschienen sind, haben sich grundlegende Entwicklungen vollzogen, die auch in die Bearbeitung der künftigen Bände hineinspielten. Es ist inzwischen selbstverständlich geworden, daß Bestandsinformationen, wie die in der Regestausgabe erfaßten, auch über das Internet oder per CD-ROM abrufbar gemacht werden. Insbesondere Werke mit einem starken Referenz- oder Nachschlagcharakter, wie die Regestausgabe, sind von dieser Tendenz betroffen. Die Zielsetzung der Regestausgabe muß sich daher auch an diesen Veränderungen und Forderungen von außen orientieren und diese bei ihrer Arbeitskonzeption berücksichtigen. Auch das Goethe- und Schiller-Archiv selbst trägt sich seit einiger Zeit mit dem Gedanken, seine traditionellen Findhilfsmittel zu modernisieren und die Bestandsdaten in einer eigenen Datenbank bereitzustellen. Da die Regestausgabe für das Archiv die Aufgabe hat, den einschlägigen Bestand archivalisch zu erschließen, müssen daher auch zur künftigen Datenbank entsprechende Schnittstellen geschaffen werden.
Aufgrund der Tatsache, daß die Regestausgabe ein Projekt ist, das bereits seit Jahren betrieben wird, mußte ein Schnitt zur Umstellung der Arbeitsweise mitten im Gesamtwerk gemacht werden. Von Band 6 der Ausgabe an, werden alle Daten nach Möglichkeit in einer zentralen Datei gehalten, auf die alle Mitarbeiter Zugriff haben und von der aus alle Anforderungen bedient werden können. Eine Mehrfacherfassung der Daten für die erwähnten unterschiedlichen Verwendungszwecke schied von vornherein aus, da sie nicht nur einen erhöhten Arbeitsaufwand, sondern auch eine höhere Fehlerquote mit sich gebracht hätte. Die bislang nur in Druckform vorliegenden Informationen der ersten fünf Bände wurden sukzessive per OCR in eine maschinenlesbare Form überführt.
Die Regestausgabe arbeitet mit TUSTEP. Das erklärt viel, aber nicht alles. TUSTEP ist modular aufgebaut, und die im Grunde schlichten Befehle lassen sich durch eine Vielzahl von Parametern, wie TUSTEP die Spezifizierungen der Befehle nennt, erheblich erweitern. Der Benutzer sieht sich schnell gezwungen, von einer einfachen, geradlinigen Vorstellung der Texterfassung, die er von den handelsüblichen Produkten kennt, abzurücken und veranlaßt, den Text zusätzlich mit Zeichen und Zeichenfolgen zu versehen, also zusätzlichen Arbeitsaufwand in den Text zu investieren. Dafür kann man bei TUSTEP fast alles zur Textauszeichnung verwenden, was man für sinnvoll und eindeutig hält, muß TUSTEP dann natürlich nur mitteilen, für was man sich entschieden hat und was TUSTEP dann damit machen soll. Aus diesem Grund wurden die zu erfassenden Daten in einer Art Metasprache strukturiert.
Der nächste Band sollte wieder so aussehen, wie die Bände zuvor, d.h. die Regesten sollten aus Regestkopf, Regesttext und gegebenenfalls dem Regestfuß (mit Angaben zu Beilagen und Anlagen) bestehen. Dazu sollten natürlich Register erstellt werden - ein Briefschreiberverzeichnis, ein Personenregister, ein Ortsregister, ein Register der Goethewerke und ein Register der übrigen erwähnten Werke. Der lebende Kolumnentitel mit Regestnummer und verkürztem Datum sollte sich an den Regesten auf der jeweiligen Seite orientieren, d.h. auf den linken Seiten sollten die Angaben zum ersten Regest auf dieser Seite, auf den rechten die Angaben zum letzten Regest dieser Seite stehen - natürlich immer mit den jeweiligen Seitenzahlen. Die Regesten selbst sollten chronologisch geordnet sein, beginnend mit dem frühesten Datum, sie sollten durchnumeriert werden und die Regestnummer jeweils in den Registern als Referenz ausgewiesen sein. Bei mehreren Briefen unter einem Datum sollte auch die alphabetische Reihenfolge der Briefschreibernamen berücksichtigt werden.
Da die EDV zur Bearbeitung eingesetzt werden sollte, sollten aber nach den erbrachten Vorleistungen auch einige Verbesserungen gegenüber der traditionellen Arbeit herausspringen. Dazu gehört eine Kontrolle der eingegebenen Daten, besonders der standardisierten oder der besonders für Fehler anfälligen. Außerdem sollte das System in der Lage sein, abzuprüfen, ob der jeweilige Bearbeiter die Informationen in die Regesten aufgenommen hat, die nach dem Regestregelwerk (den Editionsgrundsätzen) unbedingt enthalten sein müssen. Wichtig ist es vor allem, jeden Schritt nachvollziehbar zu halten und Zwischenergebnisse jederzeit wie Endergebnisse behandeln zu können. Letztlich sollen auch die Resultate für die unterschiedlichen parallelen Nutzungen der Daten, wie sie oben angedeutet wurden, ohne zusätzlichen Aufwand verwertbar sein. Zudem sollte das System flexibel und für den Nutzer mit akzeptablem Aufwand anwendbar sein.
Sämtliche Daten werden im wesentlichen in einer einzigen Datei gehalten; da mit TUSTEP eine Textverarbeitung verwendet wird, ist dies eine Textdatei, die durch die Textstrukturierung datenbanktauglich gemacht wird. Es wurde ein Codierungssystem entwickelt, das handhabbar erscheint, das flexibel genug ist und Abweichungen von der Regel zuläßt. Da es kein fertiges Produkt ist, besteht jederzeit die Möglichkeit, Änderungen einzubringen und den Anforderungen anzupassen. Die Grundlage dafür sind aber nicht ausgeklügelte Programme, sondern eine Textauszeichnung, die alle Eventualitäten der Regest-"Realität" abdecken soll und die lediglich von den Programmen in diesem Sinn interpretiert wird.
In einem ersten Arbeitsgang wurden Dossiers für alle Briefe angelegt. Dabei handelt es sich um Mappen, in denen sämtliche Informationen zu jedem Brief bis zum Ende der Bandbearbeitung aufbewahrt werden. Neben den alten Karteikarten zur Erfassung der Handschriften finden sich hier am Anfang der Bearbeitung Kopien der Handschrift und - wenn vorhanden - Kopien der Drucke sowie der Erwähnungen in der Weimarer Ausgabe. Diese Mappen werden mit einer laufenden Nummer versehen, die sich ursprünglich an der alphabetisch-chronologischen Reihenfolge der Briefe orientierte, was aber nicht zwingend ist. Sollten Mappen während der Bearbeitung hinzukommen, so werden sie am Ende hinzugefügt. Wichtig ist, daß einmal vergebene Mappennummern niemals verändert werden - sie bilden die einzige Konstante während der Bearbeitung. In diese Mappen kommen im Lauf der Bearbeitung alle Informationen, die bei der Regestierung angefallen sind, Ermittlungsergebnisse zu im Brief angesprochenen Sachverhalten und Personen sowie Ausdrucke der in der Datei abgespeicherten Daten.
Bei der Erfassung der Daten kommen dieselben Kennungen oder Codierungen bei der Beschreibung und Klassifizierung der Informationen zum Einsatz, wie sie im Regest gefordert sind:
<numa><nume>
<mapa><mape>
<korna><korne>
<auta><aute>
<data><date>
<orta><orte>
<siga><sige>
<drua><drue>
<beza><beze>
<anta><ante>
<taga><tage>
<vora><vore>
<inzipa><inzipe>
<umfa> St. Bl. Kop.: <umfe>
<dabeia><dabeie>
<sonsta><sonste>
<rega><rege>
<anla><anle>
<beia><beie>
<beiz><beie>
<zita><zite>
In der Reihenfolge von oben nach unten stehen (in der linken Spalte) die Kennungen für die Regestnummer (natürlich bis zur Fertigstellung des letzten Regests im Band noch unbesetzt), die Nummer der Mappe (zur Identifizierung), der Briefschreibername, das Datum des Briefs, der Absendeort, die Signatur, die Angabe zum Druck, der Bezugs- bzw. Antwortbrief Goethes, Tagebuchvermerke Goethes sowie Bemerkungen zur Vorlage für das Regest. Schließlich werden (siehe rechte Spalte) der Regesttext selbst sowie Anlagen und/oder Beilagen codiert. An den eigentlichen Text schließen sich die Registereinträge an, die je nach Registerart codiert sind. Die Codierungen bestehen jeweils paarig aus einer eindeutigen Anfangs- und einer Endekennung, in unserem Fall einer mnemotechnischen Abkürzung des Inhalts, in spitze Klammern eingeschlossen. Die formale Gestaltung der Codierung orientiert sich natürlich nicht zufällig an den SGML- oder HTML-Formaten, ohne aber zunächst deren inhaltliche Informationen zu berühren.
Diese Form der Codierung erlaubt es, beliebig viel Text zwischen die jeweilige Anfangs- und Endekennung zu schreiben, Einschränkungen sind lediglich sachlicher Art (in bezug auf die Editionsgrundsätze), aber nicht technischer. Gleichzeitig erlaubt diese Form der Codierung es aber auch, keinen Text zwischen zwei Codierungen zu schreiben, was je nachdem, welche Informationen betroffen sind, nach den Regestgrundsätzen zulässig ist oder nicht. Für diese Abprüfung haben wir einen einfachen "Parser" entwickelt, der die Gültigkeit der eingegebenen Daten abprüft.
Dieser Parser ist ein Druckprogramm, das die inhaltlichen Codierungen der Regestausgabe nun in die von TUSTEP vorgesehenen Steuerzeichen für den formalen Umbruch umwandelt. Dies geschieht mittels einfacher Austausch-Anweisungen in einem Kopierprogramm. Dabei wird gleichzeitig überprüft, ob die inhaltlichen Codierungen vollständig vorhanden sind und in einer für die Regestausgabe vorgeschriebenen Form behandelt wurden. Bei den Pflichtangaben im Regestkopf wird überprüft, ob entsprechende Angaben gemacht wurden; fehlen sie, erfolgt eine explizite Fehlermeldung im Ausdruck. Codierungen, die nicht benötigt wurden, und die gleichzeitig fehlen dürfen, werden dagegen für den Ausdruck unterdrückt.
Bei anderen Angaben ist eine automatische Fehlerabfrage nicht so einfach möglich. Aber auch hier erleichtern TUSTEP und unsere Codierungen das Korrekturlesen. Durch die Codierungen lassen sich Teile des Texts leicht isolieren und "out-of-context" überprüfen. Es gibt beispielsweise kompliziertere Strukturen, wie die Signaturen, die nur ein einziges Mal auftreten dürfen, da nur theoretisch, selten aber praktisch zwei Briefe auf einem Blatt auftauchen können. In diesem Fall läßt sich leicht durch ein einfaches Registerprogramm die absolute Häufigkeit der jeweiligen Signaturzeilen abprüfen, jede andere Zahl als "1" weist auf eine Fehleingabe bzw. auf Überprüfungsbedarf hin. Ähnliche Registerprogramme erleichtern auch das Korrekturlesen bei Namen, wo neben Tippfehlern auch Ansetzungsfehler bzw. Inkonsequenzen auftauchen können. Gleichzeitig lassen sich mittels dieser Programme leicht Statistiken über den Bearbeitungsstand erstellen, die für die Arbeits- und Terminplanung Sicherheit geben. Durch die explizite inhaltliche Textauszeichnung wird auch der Export der Informationen oder von Teilen davon ermöglicht, so daß auch für künftige Zweitverwertungen der Daten die Voraussetzungen geschaffen sind.
aus: Protokoll des 73. Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften vom 11. Juli 1998