Gegenstand des hier vorzustellenden Projekts ist die Digitalisierung der zoologischen Grundlagenliteratur bis ca. 1770 mit den beiden Linné-Ausgaben als Herzstück und Kern mit besonderer Erschließungstiefe. Besonders hervorzuheben ist zum einen der Einsatz (computer-)philologischer Verfahrensweisen und Methoden im Rahmen zoologischer Forschungen sowie zum andern die Zusammenführung verschiedener Interessen bzw. Projektziele und damit Bearbeitungs- und Erschließungsstufen. Eine enge Verbindung von Bibliothek und Fachwissenschaft, von Erhaltung und Erschließung historischer Bestände und aktueller naturwissenschaftlicher Forschung zeichnet das Projekt aus.
Um diese beiden Projektschwerpunkte sowie die Vorgehensweise generell zu erläutern, gehe ich folgendermaßen vor: Zunächst soll der bibliothekarische und organisatorische Rahmen, in den das Projekt eingebettet ist, kurz skizziert werden; dies beinhaltet auch eine kurze Vorstellung des Göttinger Digitalisierungszentrums (GDZ) mit seinem bisherigen Schwerpunkt Image-Digitalisierung (2.). Dabei soll jedoch weniger auf technische Details bei der Image-Erstellung eingegangen werden, sondern die Erschließung durch Metadaten im Mittelpunkt stehen, weil dies auch die Vorgehensweise im Zoologie-Projekt erläutert. Dann wird die Zielsetzung des Zoologie-Projekts (3.1) und schließlich die Vorgehensweise im einzelnen beschrieben (3.2); dabei wird auch der TUSTEP-Einsatz zur Sprache kommen.
2.1 Entstehung, Aufgaben, Ziele
Das GDZ wurde 1997 als Abteilung der SUB mit
finanzieller Unterstützung der Deutschen
Forschungsgemeinschaft gegründet und fungiert
seitdem als nationales und internationales
Service- und Kompetenzzentrum für Bibliotheken und
wissenschaftliche Institutionen auf dem Feld der
(Retro-)Digitalisierung.
(1)
Die konkreten Erfahrungen aus umfangreichen
Digitalisierungsprojekten führten zur Entwicklung
und Standardisierung eines ausgefeilten
Produktions-Workflows für Imagedigitalisierung im
großen Umfang, der die Erschließung mittels
Struktur- und Metadaten sowie die Bereitstellung
im Internet, aber auch auf CD-Rom oder als Print
on Demand, mit einschließt. Neben den
Image-Digitalisaten, die im Zentrum der Arbeit des
GDZ stehen und die ein authentisches Abbild des
Originals bieten, ermöglicht die Meta- und
Strukturdatenerfassung als Volltextkomponente
gezielte Recherchen in den elektronischen
Beständen und komfortable Navigationshilfen.
Erklärtes Ziel bei allen
Retrodigitalisierungsvorhaben ist die Anbindung an
die jeweilige fachwissenschaftliche Forschung und
Lehre und damit die Integration von Forschungsprozessen.
Obwohl der Schwerpunkt der Arbeiten im Bereich
Imaging liegt, kommt in ausgewählten Projekten die
Integration oder Bearbeitung von Volltext als
neuer Aufgabenbereich hinzu, wie z.B. im
Zoologie-Projekt oder in einem Projekt zur
Herausbildung des Modernen Konstitutionalismus,
für das ein Editionsserver aufgebaut wird, der
Image- und Volltext-Edition umfasst.
(2)
2.2 Standardisierter Workflow
Die Aufnahme der Digitalisate in die gängigen
Nachweisinstrumente ist von entscheidender
Bedeutung nicht allein für ihre Auffindbarkeit,
sondern vor allem auch für die Akzeptanz der
digitalen Kollektionen bei den Nutzerinnen und
Nutzern. Daher beginnt der Digitalisierungsvorgang
mit der Katalogaufnahme, wodurch das Digitalisat
als eigener Katalogeintrag nachgewiesen und von
dort aus direkt mit dem Dokument selbst verlinkt ist.
(3)
Nach dem eigentlichen Scanvorgang erfolgt ein
aufwändiger Erschließungsprozess:
(4)
Die weiteren Arbeitsschritte betreffen die Meta- und
Strukturdaten, die eine eminent wichtige Rolle im
gesamten Konversionsprozess spielen. Ohne
Metadaten wären Archivierung, Zugriff und
Navigation nicht möglich; daher werden an die
Erstellung dieser Metadaten die höchsten
Qualitätsmaßstäbe angelegt, das heißt, es wird
eine weitestgehend fehlerfreie Erstellung
angestrebt, die in der Regel durch
bibliothekarische Fachkräfte betreut wird.
Als Volltextkomponenten ermöglichen die Meta- und
Strukturdaten die Recherche und Navigation in der
Fülle des Materials. Erfasst werden daher neben
den bibliographischen Daten auch die
Inhaltsverzeichnisse bzw. Überschriften von
Kapiteln und Unterkapiteln sowie
Abbildungsverzeichnisse. Dem werden die
Paginierungssequenzen des Werkes zugeordnet,
(5)
um anschließend die logische (gedruckte Seitennummer)
und die physikalische (Imagenummer, Dateinummer)
Struktur aufeinander abbilden und dem Nutzer die
Navigation über die Seitenzahlen des gedruckten
Buches ermöglichen zu können.
Über Scripte werden die proprietären Daten in ein
standardisiertes RDF/XML-Format exportiert. Die
Metadaten werden anschließend über weitere Scripte
mit dem Imageset zusammengefügt und in ein
Dokument-Managementsystem importiert, das für die
Speicherung und den Zugriff über das Internet zuständig ist.
(6)
Für die Anzeige im Internet werden von den
Master-Tiffs mit hoher Auflösung (bitonal 600 ppi)
Gif-Dateien mit niedrigerer Auflösung oder auch
bei Bedarf Teile des Werkes als PDF on the fly
generiert. Der Kreis von Digitalisierung,
Erschließung und Bereitstellung schließt sich mit
der Möglichkeit zur dezentralen
"Re-Analogisierung" über den ProPrint-Service,
einem Print on Demand-Dienst.
(7)
3.1 Beschreibung des Vorhabens: Voraussetzungen und Ziele
Das Projekt Early Zoological Literature Online hat
im Sommer 2003 die Arbeit aufgenommen. Es wurde
initiiert und wird durchgeführt von Prof. Elmar
Mittler, Niedersächsische Staats- und
Universitätsbibliothek Göttingen, sowie Prof.
Rainer Willmann, Institut für Zoologie und
Anthropologie an der Universität Göttingen, Leiter
der Abteilung Morphologie und Direktor des
Zoologischen Museums.
(8)
Entsprechend den beiden Institutionen und den beiden Antragstellern werden
zwei verschiedene, sich ergänzende Projektziele verfolgt:
Der Bedarf der Zoologie an diesen älteren
Grundlagenwerken erklärt sich aus der Geschichte
des Faches. Die Anfänge zoologischer Forschung in
der westlichen Welt liegen in der Antike: Bereits
Aristoteles und Plinius verfassten beschreibende
Arbeiten über die damals bekannte Tierwelt.
Ab ca. 1550 wurden die aus heutiger Sicht
unsystematischen Kenntnisse des Mittelalters in
großen bebilderten Bänden zusammengefasst,
beispielsweise von Conrad Gesner oder Ulysses
Aldrovandi. Die ersten modernen Studien nach
heutigem Standard, d.h. mit Methoden empirischer
Untersuchungen an lebenden Tieren, wurden 1679 von
Maria Sibylla Merian publiziert.
(9)
Nach 1700 vervielfachten sich die Publikationen und damit
die Verständigungsschwierigkeiten, die mit der
zunehmenden Artenkenntnis einhergingen. Zur Lösung
des Problems der eindeutigen Namensgebung schlug
Carl von Linné 1758 ein binominales System vor,
basierend auf einem aus zwei Teilen - Gattung und
Art - bestehenden Artnamen, das sehr schnell
allgemein akzeptiert wurde und seitdem weltweit
erfolgreich angewendet wird. Eine tragende Stütze
dieses Systems ist die Prioritätsregel, wonach ein
Artname für jede Tierart nur einmal, bei der
Erstbeschreibung nämlich, vergeben werden darf.
Diese Namensgebung wird bei aller späterer
Forschung zu dieser Tierart kontinuierlich weitergeführt.
Ein einfaches Beispiel: Linné beschrieb 1758 den
Siebenpunkt-Marienkäfer (Coccinella 7-punctata).
Fände man nun heraus, dass es sich bei den
Siebenpunkt-Marienkäfern in Wirklichkeit um zwei
verschiedene Arten handelte, so würde eine von
beiden den alten Namen behalten, die andere müsste
einen neuen Namen bekommen. Um zu entscheiden,
welche Art den Namen behalten darf, muss zwingend
die Original-Beschreibung zusammen mit den noch
älteren Abbildungen, die Linné 1758 herangezogen
hatte, konsultiert werde - eine alltägliche
Situation in der modernen Biodiversitätsforschung.
Man kann sich sehr leicht vorstellen, dass viele
Forschungsstudien außerhalb Europas blockiert
sind, weil der Zugang zu den
Original-Beschreibungen gerade in Ländern, die für
die Biodiversitätsforschung von höchstem Interesse
sind, mit immensen Schwierigkeiten verbunden ist.
So gibt es beispielsweise in ganz Brasilien kein
Exemplar der Ausgabe Linné 1766-1768.
Auf Grund der beschriebenen Prioritätsregel sind
die Forschenden also zwingend auf die
Verfügbarkeit der Original-Literatur angewiesen.
Neben die Verfügbarkeit muss jedoch die
wissenschaftliche Erschließung treten, die auf der
Auswertung des Linnéschen Werkes basiert.
3.2 Bibliothekarische und wissenschaftliche Erschließung
Um also die digitalisierten Daten für den Benutzer
sinnvoll zugänglich zu machen, ist eine
begleitende, für das Fachgebiet
zurechtgeschnittene Datenbank unerlässlich. In
dieser Datenbank werden alle - in der ersten
Projektphase zunächst bis 1770 beschriebenen
- Tierarten aufgeführt und verwaltet, wobei die
Kerndaten von der Literatur-Digitalisierung
unabhängig sind.
(10)
Da die Ausrichtung und Struktur der Datenbank dem historischen System der
Tiernamensgebung folgt, hat sie langfristig
gesehen das Potential, zu einer weltweit
bedeutsamen Datenbank aller bekannten Tierarten
ausgebaut werden zu können.
Um die Artnamen extrahieren zu können, wurde der
Linné im Volltext erfasst. Da eine annähernd
100%ige Genauigkeit angestrebt wurde, wurde auf
das bewährte Verfahren des DoubleKeying zurückgegriffen.
(11)
TUSTEP hat hier seinen
routinierten Einsatz beim Vergleich der beiden
Versionen bzw. der Herstellung der weitestgehend
fehlerfreien Version. Auch die Extrahierung bzw.
das Markup der Artnamen, die über bestimmte
Layout- und Strukturmerkmale relativ leicht zu
erfassen sind, wird mit bewährten TUSTEP-Mitteln
erstellt. In die Datenbank mit dem Grundstock der
Linnéschen Artnamen (insgesamt ca. 10.000)
werden die zoologischen Daten - wie moderne
Beschreibungen, weitere Quellen, Irrtümer,
Berichtigungen etc. - von zoologischen Fachkräften
eingetragen. In vielen Fällen ist bekannt, dass
Fehlbestimmungen vorliegen. Oftmals hat sich
herausgestellt, dass in den vor-linnéschen
Werken Arten dargestellt sind, deren Identität bis
heute unklar ist. Die Dimension dieser
Unsicherheiten wird sich für manche Taxa erst mit
einer Bearbeitung auf der Grundlage der
Verfügbarkeit der Original-Literatur im Internet herausstellen.
Um das System der frühen zoologischen Literatur
und ihre Vernetzung abzubilden, geht von
bibliothekarischer Seite die Auswertung der
vorhandenen Textdaten noch einen Schritt weiter:
Linné stützte sich weitestgehend nicht auf
eigene empirische Untersuchungen, sondern
bibliographierte quasi die bis dahin erschienene
reichhaltige frühe zoologische Literatur
(insgesamt wohl ca. 360 Werke) und band sie in
Form direkter Verweise in seine Artnamensgebung
ein. Als Teil der Artbeschreibungen müssen also
von der zoologischen Forschung nicht nur die
linnéschen Beschreibungen, sondern auch alle
dort zitierten älteren Werke herangezogen werden.
Hat Linné beispielsweise bei einer
Artbeschreibung auf ein Werk von 1648 verwiesen,
so ist es bei auftretenden Zweifelsfällen die
Aufgabe der zoologischen Taxonomie,
herauszufinden, welche Tierart 1648 genau gemeint
war. Ein Haupthindernis dabei ist, dass die
Originalwerke kaum noch verfügbar sind. Dem wird
das Digitalisierungsprojekt abhelfen, indem neben
der reinen Digitalisierung der von Linné
referenzierten Werke diese mit den
bibliographischen Angaben selbst direkt verlinkt werden.
Auch hier heißt es, mit bewährten TUSTEP-Routinen
die Referenzen herausfiltern und den Zoologen zur
Verfügung zu stellen, die mit ihrem Fachwissen
prüfen, ob die Referenzierungen korrekt sind. Die
Identifizierung der bibliographischen Referenzen
wird dadurch erleichtert, dass die zoologischen
Mitarbeiter, vor allem Dr. Welter-Schultes,
(12)
für die Antragstellung durch die Zusammenstellungen
der Quellen (Linné hat keine Bibliographie)
sowie von möglichen Kürzelvarianten für diese
Quellen bereits umfangreiche Vorarbeiten geleistet
haben. Insgesamt verwies Linné 1758 bei den
Artbeschreibungen ca. 9.800 mal auf 360 andere
Werke. Auf die am häufigsten zitierten dieser
Quellen entfallen über 1.000 Verweise, während
130 Publikationen nur je einmal zitiert werden.
30 Publikationen werden mehr als 85 mal zitiert, sie
stellen mit 6.450 etwa zwei Drittel aller
Referenzen. Mit den 100 am häufigsten zitierten
Publikationen werden bereits über 90 % der Referenzen erfasst.
Die entsprechenden referenzierten Werke
durchlaufen den standardisierten, zuvor
beschriebenen Workflow im GDZ - Imaging und
Strukturdatenerfassung - und werden als Kollektion
'Zoologica' im WWW zur Verfügung gestellt. Die
Erstellung der üblichen RDF/XML-Dateien für die
Strukturdaten des Linné selbst wird hier mittels
TUSTEP-Routinen aus dem erfassten Volltext
erzeugt. Die Verwendung des Volltextes ist auch
für Recherchezwecke möglich, jedoch nicht für eine Anzeige vorgesehen.
Die Entwicklung der Instrumentarien zur
Verknüpfung aus Linné auf die älteren
Beschreibungen ist Aufgabe des GDZ für die
nächsten beiden Projektjahre.
Darüber hinaus ergeben sich noch weitere
Verknüpfungsmöglichkeiten: Die linnéschen
Grundlagenwerke wurden beispielsweise in der
'Oeconomischen Encyclopädie' von Johann Georg
Krünitz sehr häufig zitiert, die zur Zeit an der
UB Trier digitalisiert wird.
(14)
Da auch bei diesem Vorhaben die bibliographischen Angaben
ausgezeichnet werden, besteht die Möglichkeit
einer direkten Verlinkung.
Das Projekt Early Zoological Literature Online
zeigt damit musterhaft, wie Bestandserhaltung,
-erschließung, -vernetzung und
fachwissenschaftliche Forschung in dezentraler und
kooperativer Weise zusammengehen können und die
"Verteilte und vernetzte Digitale
Forschungsbibliothek" verwirklichen.
(1)
http://gdz.sub.uni-goettingen.de/;
vgl. auch Andrea Rapp: Das Digitalisierungszentrum an der
SUB Göttingen im Rahmen der Verteilten Digitalen
Forschungsbibliothek. Entstehung - Aufgaben
- Perspektiven. In: Bibliothek und Wissenschaft 36 (2003) [im Druck].
(zurück)
(2)
Dieses Projekt wird geleitet und durchgeführt
von Prof. Dr. Horst Dippel, Universität Kassel:
(3)
Im GDZ wird die eineindeutige
Pica-Produktions-Nummer (PPN) des Katalogsystems
als Identifier für das Digitalisat verwendet. Die
bibliographischen Metadaten werden über ein
Javascript aus dem Verbundkatalog (GBV) extrahiert
und zur Weiterverarbeitung in Excel importiert.
Diese bibliographischen Metadaten werden beim
Scanprozess automatisch in den TIFF-Header jedes Images eingebracht.
(zurück)
(4)
Vgl. dazu RAPP, wie Anm. 1, und den Link Workflow unter
http://gdz.sub.uni-goettingen.de/en/index.html.
(zurück)
(5)
Paginierung in römischen oder arabischen
Ziffern, unpaginierte Seiten, Fehler in der Paginierung etc.
(zurück)
(6)
Es handelt sich um das System AGORA, das von der
Firma Satz-Rechenzentrum Berlin gemeinsam mit dem
GDZ entwickelt wurde; vgl. www.srz-berlin.de.
(zurück)
(7)
http://www.proprint-service.de
(zurück)
(8)
http://wwwuser.gwdg.de/~gtroest/abteilung/morph/hallo.html.
(zurück)
(9)
Der Raupen wunderbare Verwandelung und
sonderbare Blumen-nahrung worinnen durch eine ganz
neue Erfindung der Raupen Würmer Sommer-vögelein
Motten Fliegen und anderer dergleichen
Thierlein Ursprung Speisen und Veränderungen samt
ihrer Zeit Ort und Eigenschaften den Naturkündigern Kunstmahlern
und Gartenliebhabern zu Dienst fleissig untersucht
kürzlich beschrieben nach dem Leben abgemahlt
ins Kupfer gestochen
und selbst verlegt / Von Maria Sibylla Gräffinn Merian. Nürnberg 1679.
(zurück)
(10)
Die Kernstücke für die Datenbank sind die
Artnamen aus den folgenden Werken: Linnaei,
Caroli: Systema Naturae per regna tria Naturae,
Secundum Classes, Ordines, Genera, Species, cum
characteribus, differentiis. Synonymis, locis.
Tomus I. Editio decima, reformata. Holmiae 1758;
Linné, Caroli: Systema Naturae per regna tria
Naturae, Secundum Classes, Ordines, Genera,
Species, cum characteribus, differentiis.
Synonymis, locis. Editio duodecima, reformata.
Tomus I. Pars I. Holmiae 1766; Tomus I, Pars II.
Holmiae 1767; Tomus III. Holmiae1768; Laurenti,
Joseph Nicolai: Specimen Medicum, exhibens
Synopsin Reptilium emendatam cum experimentis
circa venena et antedota Reptilium Austriacorum.
Wien 1768. Als Image-Digitalisate sind sie bereits
über den GDZ-Dokumentserver abrufbar:
http://gdz.sub.uni-goettingen.de.
(zurück)
(11)
Die Erfassung wird vom chinesischen
Erfassungsbüro TQY DoubleKey in Nanjing
durchgeführt und über das Kompetenzzentrum für
elektronische Erschließungs- und
Publikationsverfahren in den Geisteswissenschaften
an der Universität Trier vermittelt; vgl.
http://www.kompetenzzentrum.uni-trier.de.
(zurück)
(12)
Den Kolleginnen und Kollegen des Zoologischen
Instituts möchte ich an dieser Stelle ganz
herzlich für die hervorragende Zusammenarbeit bei
der Umsetzung des Projekts danken.
(zurück)
(13)
http://wwwuser.gwdg.de/~sysbot/Frameset.htm
(zurück)
(14)
Oekonomische Encyklopädie oder allgemeines
System der Staats- Stadt- Haus- und
Landwirthschaft von Johann Georg Krünitz. Berlin
1773-1858;
http://www.kruenitz.uni-trier.de
(Bdd. 1-3 online).
(zurück)
aus:
Protokoll des 89. Kolloquiums
über die Anwendung
der EDV in den Geisteswissenschaften am 22. November 2003
3. Das Projekt Early Zooligical Literature Online (EZOOLO)
4. Ausblick
Eine naheliegende Ausweitung des Projektes in den
Bereich der Botanik wird derzeit geprüft und
konzipiert. An diesen Überlegungen beteiligt ist
die Abteilung für Botanische Systematik am
Albrecht-von-Haller-Institut für
Pflanzenwissenschaften der Universität Göttingen
(Prof. Robbert Gradstein).
(13)
Die historischen Buchbestände für ein solches Vorhaben
sind an der SUB Göttingen vorhanden.
5. Fazit
In weiten Teilen folgt das Projekt den
Konventionen und dem üblichen Workflow des GDZ. In
einigen neuen Modulen dieses Workflows, in dem es
um die systematische Bearbeitung größerer Mengen
an Textinformationen geht, wird erstmals im GDZ
TUSTEP gezielt eingesetzt. Die offene Struktur von
TUSTEP und die Kontrolle über die exportierten
Datenformate erlauben diesen gezielten Einsatz und
die reibungslose Integration der Daten in den
Workflow. Dies möchte ich deutlich als große
Stärke von TUSTEP herausstreichen.
Anmerkungen
http://www.uni-kassel.de/~dippel/projekt/.
(zurück)