Protokoll des 89. Kolloquiums

Aus dem Protokoll des 89. Kolloquiums über die Anwendung der
Elektronischen Datenverarbeitung in den Geisteswissenschaften
an der Universität Tübingen vom 22. November 2003

Andrea Rapp (Göttingen)

Die Systematik der Arten von Carl von Linné.
Der Aufbau eines zoologischen Fachinformationssystems
auf der Basis des Linnéschen Grundlagenwerkes und seiner Handbibliothek

1. Einleitung

Der Planet Erde beherbergt schätzungsweise 10 Millionen Tierarten - um 1750 waren etwa 4.000 Tierarten bekannt und in verstreuten Werken beschrieben. Dem schwedischen Naturforscher Carl von Linné gebührt das Verdienst, in seinem Werk 'Systema Naturae' erstmals eine systematische Zusammenstellung aller bekannten Arten zu versuchen und zugleich ein System der Namensgebung vorzuschlagen, das bis heute seine Gültigkeit hat. In der ersten Auflage von 1758 vergab er 4.410 Artnamen, von denen heute angenommen wird, dass sie zu ca. 4.270 Arten gehören. Dies ist der Grundstock aller zoologischen Taxonomie und moderner Biodiversitätsforschung. Danach vermehrten sich Kenntnis und Beschreibungen der Tierarten sehr rasch: Bis 1770 wurden in rund 60 Publikationen ca. 10.000 Tierarten beschrieben, wovon etwa 90 % auf die beiden Auflagen von Linné 1758 und 1766-1768 entfallen.

Gegenstand des hier vorzustellenden Projekts ist die Digitalisierung der zoologischen Grundlagenliteratur bis ca. 1770 mit den beiden Linné-Ausgaben als Herzstück und Kern mit besonderer Erschließungstiefe. Besonders hervorzuheben ist zum einen der Einsatz (computer-)philologischer Verfahrensweisen und Methoden im Rahmen zoologischer Forschungen sowie zum andern die Zusammenführung verschiedener Interessen bzw. Projektziele und damit Bearbeitungs- und Erschließungsstufen. Eine enge Verbindung von Bibliothek und Fachwissenschaft, von Erhaltung und Erschließung historischer Bestände und aktueller naturwissenschaftlicher Forschung zeichnet das Projekt aus.

Um diese beiden Projektschwerpunkte sowie die Vorgehensweise generell zu erläutern, gehe ich folgendermaßen vor: Zunächst soll der bibliothekarische und organisatorische Rahmen, in den das Projekt eingebettet ist, kurz skizziert werden; dies beinhaltet auch eine kurze Vorstellung des Göttinger Digitalisierungszentrums (GDZ) mit seinem bisherigen Schwerpunkt Image-Digitalisierung (2.). Dabei soll jedoch weniger auf technische Details bei der Image-Erstellung eingegangen werden, sondern die Erschließung durch Metadaten im Mittelpunkt stehen, weil dies auch die Vorgehensweise im Zoologie-Projekt erläutert. Dann wird die Zielsetzung des Zoologie-Projekts (3.1) und schließlich die Vorgehensweise im einzelnen beschrieben (3.2); dabei wird auch der TUSTEP-Einsatz zur Sprache kommen.

2. Vorstellung des GDZ

2.1 Entstehung, Aufgaben, Ziele

Das GDZ wurde 1997 als Abteilung der SUB mit finanzieller Unterstützung der Deutschen Forschungsgemeinschaft gegründet und fungiert seitdem als nationales und internationales Service- und Kompetenzzentrum für Bibliotheken und wissenschaftliche Institutionen auf dem Feld der (Retro-)Digitalisierung. ⁽¹⁾ Die konkreten Erfahrungen aus umfangreichen Digitalisierungsprojekten führten zur Entwicklung und Standardisierung eines ausgefeilten Produktions-Workflows für Imagedigitalisierung im großen Umfang, der die Erschließung mittels Struktur- und Metadaten sowie die Bereitstellung im Internet, aber auch auf CD-Rom oder als Print on Demand, mit einschließt. Neben den Image-Digitalisaten, die im Zentrum der Arbeit des GDZ stehen und die ein authentisches Abbild des Originals bieten, ermöglicht die Meta- und Strukturdatenerfassung als Volltextkomponente gezielte Recherchen in den elektronischen Beständen und komfortable Navigationshilfen. Erklärtes Ziel bei allen Retrodigitalisierungsvorhaben ist die Anbindung an die jeweilige fachwissenschaftliche Forschung und Lehre und damit die Integration von Forschungsprozessen.

Obwohl der Schwerpunkt der Arbeiten im Bereich Imaging liegt, kommt in ausgewählten Projekten die Integration oder Bearbeitung von Volltext als neuer Aufgabenbereich hinzu, wie z.B. im Zoologie-Projekt oder in einem Projekt zur Herausbildung des Modernen Konstitutionalismus, für das ein Editionsserver aufgebaut wird, der Image- und Volltext-Edition umfasst. ⁽²⁾

2.2 Standardisierter Workflow

Die Aufnahme der Digitalisate in die gängigen Nachweisinstrumente ist von entscheidender Bedeutung nicht allein für ihre Auffindbarkeit, sondern vor allem auch für die Akzeptanz der digitalen Kollektionen bei den Nutzerinnen und Nutzern. Daher beginnt der Digitalisierungsvorgang mit der Katalogaufnahme, wodurch das Digitalisat als eigener Katalogeintrag nachgewiesen und von dort aus direkt mit dem Dokument selbst verlinkt ist. ⁽³⁾ Nach dem eigentlichen Scanvorgang erfolgt ein aufwändiger Erschließungsprozess: ⁽⁴⁾ Die weiteren Arbeitsschritte betreffen die Meta- und Strukturdaten, die eine eminent wichtige Rolle im gesamten Konversionsprozess spielen. Ohne Metadaten wären Archivierung, Zugriff und Navigation nicht möglich; daher werden an die Erstellung dieser Metadaten die höchsten Qualitätsmaßstäbe angelegt, das heißt, es wird eine weitestgehend fehlerfreie Erstellung angestrebt, die in der Regel durch bibliothekarische Fachkräfte betreut wird.

Als Volltextkomponenten ermöglichen die Meta- und Strukturdaten die Recherche und Navigation in der Fülle des Materials. Erfasst werden daher neben den bibliographischen Daten auch die Inhaltsverzeichnisse bzw. Überschriften von Kapiteln und Unterkapiteln sowie Abbildungsverzeichnisse. Dem werden die Paginierungssequenzen des Werkes zugeordnet, ⁽⁵⁾ um anschließend die logische (gedruckte Seitennummer) und die physikalische (Imagenummer, Dateinummer) Struktur aufeinander abbilden und dem Nutzer die Navigation über die Seitenzahlen des gedruckten Buches ermöglichen zu können.

Über Scripte werden die proprietären Daten in ein standardisiertes RDF/XML-Format exportiert. Die Metadaten werden anschließend über weitere Scripte mit dem Imageset zusammengefügt und in ein Dokument-Managementsystem importiert, das für die Speicherung und den Zugriff über das Internet zuständig ist. ⁽⁶⁾

Für die Anzeige im Internet werden von den Master-Tiffs mit hoher Auflösung (bitonal 600 ppi) Gif-Dateien mit niedrigerer Auflösung oder auch bei Bedarf Teile des Werkes als PDF on the fly generiert. Der Kreis von Digitalisierung, Erschließung und Bereitstellung schließt sich mit der Möglichkeit zur dezentralen "Re-Analogisierung" über den ProPrint-Service, einem Print on Demand-Dienst. ⁽⁷⁾

3. Das Projekt Early Zooligical Literature Online (EZOOLO)

3.1 Beschreibung des Vorhabens: Voraussetzungen und Ziele

Das Projekt Early Zoological Literature Online hat im Sommer 2003 die Arbeit aufgenommen. Es wurde initiiert und wird durchgeführt von Prof. Elmar Mittler, Niedersächsische Staats- und Universitätsbibliothek Göttingen, sowie Prof. Rainer Willmann, Institut für Zoologie und Anthropologie an der Universität Göttingen, Leiter der Abteilung Morphologie und Direktor des Zoologischen Museums. ⁽⁸⁾ Entsprechend den beiden Institutionen und den beiden Antragstellern werden zwei verschiedene, sich ergänzende Projektziele verfolgt:

Aus der Sicht der Zoologie werden die Artnamen aus Linnés Werk extrahiert, in eine Datenbank überführt, mit modernen Beschreibungen verglichen und das gesamte Material für die weltweite aktuelle Biodiversitätsforschung, die auf die älteren Beschreibungen zwingend angewiesen ist, bereitgestellt.
Aus der Sicht der Bibliothek erfolgt die Erschließung und globale Bereitstellung eines wertvollen historischen, z.T. fragilen, inhaltlich geschlossenen Bestandes, der in dieser Vollständigkeit weltweit nur in ganz wenigen großen Nationalbibliotheken noch einmal vorhanden sein dürfte.

Der Bedarf der Zoologie an diesen älteren Grundlagenwerken erklärt sich aus der Geschichte des Faches. Die Anfänge zoologischer Forschung in der westlichen Welt liegen in der Antike: Bereits Aristoteles und Plinius verfassten beschreibende Arbeiten über die damals bekannte Tierwelt. Ab ca. 1550 wurden die aus heutiger Sicht unsystematischen Kenntnisse des Mittelalters in großen bebilderten Bänden zusammengefasst, beispielsweise von Conrad Gesner oder Ulysses Aldrovandi. Die ersten modernen Studien nach heutigem Standard, d.h. mit Methoden empirischer Untersuchungen an lebenden Tieren, wurden 1679 von Maria Sibylla Merian publiziert. ⁽⁹⁾ Nach 1700 vervielfachten sich die Publikationen und damit die Verständigungsschwierigkeiten, die mit der zunehmenden Artenkenntnis einhergingen. Zur Lösung des Problems der eindeutigen Namensgebung schlug Carl von Linné 1758 ein binominales System vor, basierend auf einem aus zwei Teilen - Gattung und Art - bestehenden Artnamen, das sehr schnell allgemein akzeptiert wurde und seitdem weltweit erfolgreich angewendet wird. Eine tragende Stütze dieses Systems ist die Prioritätsregel, wonach ein Artname für jede Tierart nur einmal, bei der Erstbeschreibung nämlich, vergeben werden darf. Diese Namensgebung wird bei aller späterer Forschung zu dieser Tierart kontinuierlich weitergeführt.

Ein einfaches Beispiel: Linné beschrieb 1758 den Siebenpunkt-Marienkäfer (Coccinella 7-punctata). Fände man nun heraus, dass es sich bei den Siebenpunkt-Marienkäfern in Wirklichkeit um zwei verschiedene Arten handelte, so würde eine von beiden den alten Namen behalten, die andere müsste einen neuen Namen bekommen. Um zu entscheiden, welche Art den Namen behalten darf, muss zwingend die Original-Beschreibung zusammen mit den noch älteren Abbildungen, die Linné 1758 herangezogen hatte, konsultiert werde - eine alltägliche Situation in der modernen Biodiversitätsforschung. Man kann sich sehr leicht vorstellen, dass viele Forschungsstudien außerhalb Europas blockiert sind, weil der Zugang zu den Original-Beschreibungen gerade in Ländern, die für die Biodiversitätsforschung von höchstem Interesse sind, mit immensen Schwierigkeiten verbunden ist. So gibt es beispielsweise in ganz Brasilien kein Exemplar der Ausgabe Linné 1766-1768.

Auf Grund der beschriebenen Prioritätsregel sind die Forschenden also zwingend auf die Verfügbarkeit der Original-Literatur angewiesen. Neben die Verfügbarkeit muss jedoch die wissenschaftliche Erschließung treten, die auf der Auswertung des Linnéschen Werkes basiert.

3.2 Bibliothekarische und wissenschaftliche Erschließung

Um also die digitalisierten Daten für den Benutzer sinnvoll zugänglich zu machen, ist eine begleitende, für das Fachgebiet zurechtgeschnittene Datenbank unerlässlich. In dieser Datenbank werden alle - in der ersten Projektphase zunächst bis 1770 beschriebenen - Tierarten aufgeführt und verwaltet, wobei die Kerndaten von der Literatur-Digitalisierung unabhängig sind. ⁽¹⁰⁾ Da die Ausrichtung und Struktur der Datenbank dem historischen System der Tiernamensgebung folgt, hat sie langfristig gesehen das Potential, zu einer weltweit bedeutsamen Datenbank aller bekannten Tierarten ausgebaut werden zu können.

Um die Artnamen extrahieren zu können, wurde der Linné im Volltext erfasst. Da eine annähernd 100%ige Genauigkeit angestrebt wurde, wurde auf das bewährte Verfahren des DoubleKeying zurückgegriffen. ⁽¹¹⁾ TUSTEP hat hier seinen routinierten Einsatz beim Vergleich der beiden Versionen bzw. der Herstellung der weitestgehend fehlerfreien Version. Auch die Extrahierung bzw. das Markup der Artnamen, die über bestimmte Layout- und Strukturmerkmale relativ leicht zu erfassen sind, wird mit bewährten TUSTEP-Mitteln erstellt. In die Datenbank mit dem Grundstock der Linnéschen Artnamen (insgesamt ca. 10.000) werden die zoologischen Daten - wie moderne Beschreibungen, weitere Quellen, Irrtümer, Berichtigungen etc. - von zoologischen Fachkräften eingetragen. In vielen Fällen ist bekannt, dass Fehlbestimmungen vorliegen. Oftmals hat sich herausgestellt, dass in den vor-linnéschen Werken Arten dargestellt sind, deren Identität bis heute unklar ist. Die Dimension dieser Unsicherheiten wird sich für manche Taxa erst mit einer Bearbeitung auf der Grundlage der Verfügbarkeit der Original-Literatur im Internet herausstellen.

Um das System der frühen zoologischen Literatur und ihre Vernetzung abzubilden, geht von bibliothekarischer Seite die Auswertung der vorhandenen Textdaten noch einen Schritt weiter:

Linné stützte sich weitestgehend nicht auf eigene empirische Untersuchungen, sondern bibliographierte quasi die bis dahin erschienene reichhaltige frühe zoologische Literatur (insgesamt wohl ca. 360 Werke) und band sie in Form direkter Verweise in seine Artnamensgebung ein. Als Teil der Artbeschreibungen müssen also von der zoologischen Forschung nicht nur die linnéschen Beschreibungen, sondern auch alle dort zitierten älteren Werke herangezogen werden. Hat Linné beispielsweise bei einer Artbeschreibung auf ein Werk von 1648 verwiesen, so ist es bei auftretenden Zweifelsfällen die Aufgabe der zoologischen Taxonomie, herauszufinden, welche Tierart 1648 genau gemeint war. Ein Haupthindernis dabei ist, dass die Originalwerke kaum noch verfügbar sind. Dem wird das Digitalisierungsprojekt abhelfen, indem neben der reinen Digitalisierung der von Linné referenzierten Werke diese mit den bibliographischen Angaben selbst direkt verlinkt werden.

Auch hier heißt es, mit bewährten TUSTEP-Routinen die Referenzen herausfiltern und den Zoologen zur Verfügung zu stellen, die mit ihrem Fachwissen prüfen, ob die Referenzierungen korrekt sind. Die Identifizierung der bibliographischen Referenzen wird dadurch erleichtert, dass die zoologischen Mitarbeiter, vor allem Dr. Welter-Schultes, ⁽¹²⁾ für die Antragstellung durch die Zusammenstellungen der Quellen (Linné hat keine Bibliographie) sowie von möglichen Kürzelvarianten für diese Quellen bereits umfangreiche Vorarbeiten geleistet haben. Insgesamt verwies Linné 1758 bei den Artbeschreibungen ca. 9.800 mal auf 360 andere Werke. Auf die am häufigsten zitierten dieser Quellen entfallen über 1.000 Verweise, während 130 Publikationen nur je einmal zitiert werden. 30 Publikationen werden mehr als 85 mal zitiert, sie stellen mit 6.450 etwa zwei Drittel aller Referenzen. Mit den 100 am häufigsten zitierten Publikationen werden bereits über 90 % der Referenzen erfasst.

Die entsprechenden referenzierten Werke durchlaufen den standardisierten, zuvor beschriebenen Workflow im GDZ - Imaging und Strukturdatenerfassung - und werden als Kollektion 'Zoologica' im WWW zur Verfügung gestellt. Die Erstellung der üblichen RDF/XML-Dateien für die Strukturdaten des Linné selbst wird hier mittels TUSTEP-Routinen aus dem erfassten Volltext erzeugt. Die Verwendung des Volltextes ist auch für Recherchezwecke möglich, jedoch nicht für eine Anzeige vorgesehen.

Die Entwicklung der Instrumentarien zur Verknüpfung aus Linné auf die älteren Beschreibungen ist Aufgabe des GDZ für die nächsten beiden Projektjahre.

4. Ausblick

Eine naheliegende Ausweitung des Projektes in den Bereich der Botanik wird derzeit geprüft und konzipiert. An diesen Überlegungen beteiligt ist die Abteilung für Botanische Systematik am Albrecht-von-Haller-Institut für Pflanzenwissenschaften der Universität Göttingen (Prof. Robbert Gradstein). ⁽¹³⁾ Die historischen Buchbestände für ein solches Vorhaben sind an der SUB Göttingen vorhanden.

Darüber hinaus ergeben sich noch weitere Verknüpfungsmöglichkeiten: Die linnéschen Grundlagenwerke wurden beispielsweise in der 'Oeconomischen Encyclopädie' von Johann Georg Krünitz sehr häufig zitiert, die zur Zeit an der UB Trier digitalisiert wird. ⁽¹⁴⁾ Da auch bei diesem Vorhaben die bibliographischen Angaben ausgezeichnet werden, besteht die Möglichkeit einer direkten Verlinkung.

Das Projekt Early Zoological Literature Online zeigt damit musterhaft, wie Bestandserhaltung, -erschließung, -vernetzung und fachwissenschaftliche Forschung in dezentraler und kooperativer Weise zusammengehen können und die "Verteilte und vernetzte Digitale Forschungsbibliothek" verwirklichen.

5. Fazit

In weiten Teilen folgt das Projekt den Konventionen und dem üblichen Workflow des GDZ. In einigen neuen Modulen dieses Workflows, in dem es um die systematische Bearbeitung größerer Mengen an Textinformationen geht, wird erstmals im GDZ TUSTEP gezielt eingesetzt. Die offene Struktur von TUSTEP und die Kontrolle über die exportierten Datenformate erlauben diesen gezielten Einsatz und die reibungslose Integration der Daten in den Workflow. Dies möchte ich deutlich als große Stärke von TUSTEP herausstreichen.

Anmerkungen

(1) http://gdz.sub.uni-goettingen.de/; vgl. auch Andrea Rapp: Das Digitalisierungszentrum an der SUB Göttingen im Rahmen der Verteilten Digitalen Forschungsbibliothek. Entstehung - Aufgaben - Perspektiven. In: Bibliothek und Wissenschaft 36 (2003) [im Druck]. (zurück)

(2) Dieses Projekt wird geleitet und durchgeführt von Prof. Dr. Horst Dippel, Universität Kassel:
http://www.uni-kassel.de/~dippel/projekt/. (zurück)

(3) Im GDZ wird die eineindeutige Pica-Produktions-Nummer (PPN) des Katalogsystems als Identifier für das Digitalisat verwendet. Die bibliographischen Metadaten werden über ein Javascript aus dem Verbundkatalog (GBV) extrahiert und zur Weiterverarbeitung in Excel importiert. Diese bibliographischen Metadaten werden beim Scanprozess automatisch in den TIFF-Header jedes Images eingebracht. (zurück)

(4) Vgl. dazu RAPP, wie Anm. 1, und den Link Workflow unter http://gdz.sub.uni-goettingen.de/en/index.html. (zurück)

(5) Paginierung in römischen oder arabischen Ziffern, unpaginierte Seiten, Fehler in der Paginierung etc. (zurück)

(6) Es handelt sich um das System AGORA, das von der Firma Satz-Rechenzentrum Berlin gemeinsam mit dem GDZ entwickelt wurde; vgl. www.srz-berlin.de. (zurück)

(7) http://www.proprint-service.de (zurück)

(8) http://wwwuser.gwdg.de/~gtroest/abteilung/morph/hallo.html. (zurück)

(9) Der Raupen wunderbare Verwandelung und sonderbare Blumen-nahrung worinnen durch eine ganz neue Erfindung der Raupen Würmer Sommer-vögelein Motten Fliegen und anderer dergleichen Thierlein Ursprung Speisen und Veränderungen samt ihrer Zeit Ort und Eigenschaften den Naturkündigern Kunstmahlern und Gartenliebhabern zu Dienst fleissig untersucht kürzlich beschrieben nach dem Leben abgemahlt ins Kupfer gestochen und selbst verlegt / Von Maria Sibylla Gräffinn Merian. Nürnberg 1679. (zurück)

(10) Die Kernstücke für die Datenbank sind die Artnamen aus den folgenden Werken: Linnaei, Caroli: Systema Naturae per regna tria Naturae, Secundum Classes, Ordines, Genera, Species, cum characteribus, differentiis. Synonymis, locis. Tomus I. Editio decima, reformata. Holmiae 1758; Linné, Caroli: Systema Naturae per regna tria Naturae, Secundum Classes, Ordines, Genera, Species, cum characteribus, differentiis. Synonymis, locis. Editio duodecima, reformata. Tomus I. Pars I. Holmiae 1766; Tomus I, Pars II. Holmiae 1767; Tomus III. Holmiae1768; Laurenti, Joseph Nicolai: Specimen Medicum, exhibens Synopsin Reptilium emendatam cum experimentis circa venena et antedota Reptilium Austriacorum. Wien 1768. Als Image-Digitalisate sind sie bereits über den GDZ-Dokumentserver abrufbar: http://gdz.sub.uni-goettingen.de. (zurück)

(11) Die Erfassung wird vom chinesischen Erfassungsbüro TQY DoubleKey in Nanjing durchgeführt und über das Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier vermittelt; vgl. http://www.kompetenzzentrum.uni-trier.de. (zurück)

(12) Den Kolleginnen und Kollegen des Zoologischen Instituts möchte ich an dieser Stelle ganz herzlich für die hervorragende Zusammenarbeit bei der Umsetzung des Projekts danken. (zurück)

(13) http://wwwuser.gwdg.de/~sysbot/Frameset.htm (zurück)