TUSTEP und das Netz.
Eine Beispielanwendung für die Recherche in WWW-basierten Datenbanken

TUSTEP kann schon seit langem mit strukturierten Daten (Datenbanken) umgehen. Es bietet mächtige, vom Benutzer fast beliebig konfigurierbare und trotzdem effiziente Suchmöglichkeiten für Texte aller Art. Es ist außerdem ein ideales Werkzeug zur Wartung und Publikation von Dokumenten mit inhaltlichen Auszeichnungen.

Auf diese Leistungen von TUSTEP kann jetzt auch über das WWW zugegriffen werden. TUSTEP ist damit als ein mächtiges, weitgehend den individuellen Anforderungen anpaßbares Datenbanksystem im Netz einsetzbar.

Dieser Artikel wird diese neuen Einsatzmöglichkeiten zunächst an einem konkreten Beispiel, dem neuen OPAC (Online Public Access Catalogue) der ZDV-Bibliothek http://www.uni-tuebingen.de/cgi-bin/zdvlit skizzieren, bevor dann kurz die zugrundeliegenden Mechanismen erläutert werden.

Anforderungen

Eine Suchmaske sollte es dem Nutzer so einfach wie möglich machen, auf die von ihm benötigten Informationen zuzugreifen. Dieses an sich selbstverständliche Postulat führt zu einer Reihe von Anforderungen, die von vielen Produkten am Markt nicht oder nur schlecht erfüllt werden können:

Zusätzlich sind natürlich Sicherheitsüberlegungen hochrelevant: CGI-Skripte sind potentielle Sicherheitslücken, die es u.U. "Hackern" erlauben können, in das lokale Netzwerk einzudringen und Schaden anzurichten.

Der neue OPAC der ZDV-Bibliothek

(mit Beispiel für eine Suchanfrage)

 

Der neue, TUSTEP-basierte OPAC hat das Ziel, obigen Anforderungen gerecht zu werden. Die Benennung der Textfelder ist selbsterklärend und entspricht den üblichen Konventionen: Nachname, Vorname etc. Im Titel-Feld können mehrere Stichwörter angegeben werden, die durch ODER verknüpft werden. Sollen Stichwörter zusätzlich oder aber nicht vorkommen, können diese im zweiten Feld angegeben werden. Anstelle eines Stichwortes kann auch eine in Anführungszeichen eingeschlossene Wortfolge angegeben werden. Im Gegensatz zu anderen Suchmaschinen können für Jahr auch Zeiträume angegeben werden. Die Möglichkeit, die Suche auf bestimmte Signaturen einzuschränken, ist für die ZDV-Bibliothek wichtig, da sich nur so gezielt auf den weit über Tübingen hinaus bekannten Sammelschwerpunkt EDV in den Geisteswissenschaften, dessen Signaturen mit G beginnen, zugreifen läßt. In anderen OPACs verwendete Suchkriterien wie Verlag oder Erscheinungsort schienen für den konkreten Anwendungszusammenhang verzichtbar und wurden daher weggelassen. Bei Bedarf könnten sie natürlich problemlos berücksichtigt werden.

Der Benutzer kann über Treffer pro Seite die Art der Ergebnispräsentation beeinflussen. Insbesondere kann er mit Alle Treffer bequem alle Suchergebnisse in einer Datei sammeln und zur weiteren Verwendung abspeichern. Über Ausgabeformat kann er noch bestimmen, ob bei unselbständigen Publikationen auch die Quelle mit ausgegeben werden soll (default) oder ob Autor und Titelangabe reichen. Ebenso kann mit Publikationsart die Suche auf Monographien beschränkt werden (normalerweise werden auch Artikel in Sammelbänden o. ä. mit in die Suche einbezogen).

Das Ergebnis zur obigen Suchanfrage:

 

Erlaubt es TUSTEP im Gegensatz zu vielen anderen Produkten bereits, Suchmasken mit relativ geringem Aufwand exakt auf die vorhandenen Bedürfnisse zuzuschneiden, so spielt es seine wirkliche Stärke in der "intelligent unscharfen" Suche aus, die sich hier hinter dem Punkt Exaktheit verbirgt. Hier kann der Benutzer zwischen drei Optionen wählen: Exakte Übereinstimmung findet nur in der Schreibung identische Ausdrücke, während Normalisierte Suche versucht, auf die Erwartungen des Benutzers einzugehen, indem in der Sprache verbreitete äquivalente Schreibweisen berücksichtigt werden. Im konkreten Beispiel findet die Suche nach "Tübinger" korrekt auch die Schreibung "TUebinger" - allgemeiner gesprochen, es werden Diakritika für die Suche ignoriert und Umlaute sowie ae/oe/ue-Kombinationen auf ihre Grundbuchstaben zurückgeführt. Sowohl in den Daten als auch in der Ausgabe findet sich natürlich die Orginalform. Die gewünschte Unschärfe kann mit minimalem Aufwand den konkreten Anforderungen angepaßt werden und damit z.B. unterschiedliche Schreibungen im englischen und amerikanischen Englisch (-ize vs.-ise u.ä.) berücksichtigen. Der Entwickler kann hier nahezu unbeschränkt auf Kundenwünsche eingehen.

Zusätzlich zur Normalisierten Suche gibt es noch die Option Fuzzy-Suche, die in der hier programmierten Form den gesamten Datenbestand nach Einträgen durchsucht, die sich maximal um einen Buchstaben von dem Suchbegriff unterscheiden (z.B. findet die Suche nach "tastep" neben "TUSTEP" auch "tasten"). So können um den Preis höherer Rechenzeit auch dann Publikationen lokalisiert werden, wenn der Benutzer sich unsicher über die korrekte Schreibweise etwa des Autorennamens ist. Diese Funktionalität, die wiederum weitgehend anpaßbar ist (z.B. phonetische Suche, Soundex-Suche ...), ist u.a. für Recherchen in Textkorpora interessant, in denen entweder eine nicht-standardisierte Orthographie verwendet wird oder viele Erfassungsfehler vorliegen (z.B. bei aus OCR resultierenden Texten). Die verschiedenen Methoden lassen sich kombinieren.

Grundgedanken der Realisierung

Der neue OPAC ist intern ein TUSTEP-Makro, das über ein CGI-Skript aktiviert wird. CGI (Common Gateway Interface) ist ein Mechanismus, der es einem irgendwo im WWW laufenden Clienten (normalerweise einem Browser) erlaubt, ein dazu freigegebenes Programm auf dem WWW-Server zu starten, ihm Parameter zu übergeben und die Ausgabe entgegenzunehmen. Damit ist CGI die Grundlage für interaktives Arbeiten im WWW und eine der Ursachen für dessen immensen Erfolg. Für Details sei hier auf zahlreiche Publikationen zu diesem Thema verwiesen (gleich eine Gelegenheit, einmal im neuen OPAC zu stöbern!)

Nur soviel sei gesagt: TUSTEP erzeugt eine vom Entwickler frei zu gestaltende HTML-Suchmaske, in die der Benutzer seine Anfragen eingeben kann. Dem hierzu im Batch-Betrieb laufenden TUSTEP werden diese Daten dann vom Browser per CGI in einer fixen Umgebungsvariablen QUERY_STRING übergeben. Das Makro analysiert deren Inhalt und nutzt die neuen Makro-Funktionen zur Datenbankabfrage (die Inhalt eines BI-Artikels in einer der nächsten Ausgaben sein werden), um passende Einträge zu finden. In Abhängigkeit von Benutzereinstellungen wird dann HTML-Code erzeugt und ausgegeben, über den der Entwickler völlige Kontrolle hat.

Aufgrund der "Sandbox"-Struktur von TUSTEP, die die Kommunikation mit dem dahinter stehenden Betriebssystem nur über genau definierte Schnittstellen ermöglicht, ist es nach menschlichem Ermessen unmöglich, daß ein Eindringling Zugriff auf nicht explizit freigegebene Systemressourcen erhalten kann.

Falls diese knappen Ausführungen mehr Fragen offen lassen als Antworten geben, sei auf den vom 15.-17. 1. 1999 in Baubeuren geplanten Workshop zum Thema WWW - CGI - TUSTEP: Recherchieren in strukturierten Daten verwiesen, in dem Ihre Neugier befriedigt wird (TUSTEP-Grundkenntnisse sind nützlich, aber keine Vorbedingung). Ihre Anmeldungen richten Sie bitte an tustep@zdv.uni-tuebingen.de (Tel.: 07071/29-70347 oder 29-70210).

Für Rückfragen hierzu und für Anregungen zum neuen OPAC stehe ich Ihnen gerne zur Verfügung.

Marc Wilhelm Küster
kuester@zdv.uni-tuebingen.de


BI 98/9 + 10, S. 9-11