BAIN?!

Fragen und Antworten zu Bibliotheks- und Archivinformatik

View the Project on GitHub KKBuhler/BAIN

20 November 2020

7: Schnittstellen nutzen und Metadaten austauschen

by K.K.Buhler

OAI, SRU & VUFINDHARVEST

In Bibliotheks- und Archivinformationssystemen werden physische oder digitale Objekte mit Metadaten beschrieben. Diese Datensätze werden nach den Regeln der Metadatenstandards erfasst (z.B. MARC21, ISAD(G), EAD, vgl. dazu Beitrag 2 “Funktion und Aufbau eines Bibliothekssystems” und Beitrag 4 “Funktion und Aufbau eines Archivinformationssystems”). Das Anwenden der Regeln dient als gemeinsame Basis für einen Austausch der Daten unter verschiedenen Institutionen. Weiter werden diese Metadaten in den jeweiligen Systemen in verschiedenen Formaten angewendet, die sich in den Endungen der Dateien ablesen lassen. Beispielsweise liegen im deutschsprachigen Bibliothekswesen die standardisierten Metadaten mit der Dateiendung .mrc vor.

Wozu Schnittstellen?

Damit diese bereitgestellten Metadaten ausgetauscht werden können, braucht es eine Schnittstelle. Diese Schnittstelle erlaubt den Export und Import der Metadaten. Zudem gibt es eine “creepy” Form des Datenaustauschs: Harvesting. Dieses “Ernten” von Daten wird unten ausführlich beschrieben.

Ein Beispiel für eine solche Schnittstelle ist OAI: Die OAI (Open Archives Initiative)-Schnittstelle eignet sich für die regelmäßige Aktualisierung großer Datenbestände. Voraussetzung für eine ständige Synchronisation ist der initiale Datenimport eines aktuellen Grundbestandes in die eigene Datenbank. Der Zugriff auf die OAI-Schnittstelle ist ebenso kostenfrei wie der Grundbestand. Die Kommunikation einer solchen Schnittstelle erfolgt zwischen der Deutschen Nationalbibliothek als Datenlieferant (data provider) und einem Dienstanbieter (service provider), der die Daten bezieht. Der Bezug erfolgt automatisiert durch einen sogenannten „OAI-Harvester“. Das Protokoll, das für die Kommunikation verwendet wird, hat die Bezeichnung OAI-PMH (OAI-Protocol for Metadata Harvesting). Nach Anmeldung und Autorisierung bietet die Deutsche Nationalbibliothek über eine HTTPS-Schnittstelle und das OAI-PMH-Protokoll eine Anfragemöglichkeit auf die Metadaten.

Wie schon in Kapitel 2 “Funktion und Aufbau eines Bibliothekssystems” erwähnt, gibt es auch SRU-Schnittstellen, Search/Retrieve via URL. Weiter gibt es Z39.50 als älteste Variante, die noch immer im Einsatz ist. Meist wird das modernere SRU als Ergänzung angeboten. SRU und Z39.50 sind beides von Library of Congress initiierten Schnittstellen.

Während Z39.50 und SRU sich besonders für Live-Abfragen oder gezielten Datenabruf mit vielen Parametern eignet, zielt OAI-PMH vor allem auf größere Datenabzüge und regelmäßige Aktualisierungen. SRU und OAI-PMH sind aktuelle Schnittstellen, die Anfragen als Internetadresse (URL) zusammenstellen können und direkt über den Browser ohne Zusatzsoftware aufrufbar sind.

Variante 1: Metadaten exportieren

Ist man Administrator’in oder Berechtigte’r eines Bibliotheks- oder Archivssystems, dann lassen sich die Datensätze einfach exportieren. Dazu wird in den Einstellungen der entsprechende Link gesucht. Bei AToM beispielsweise stehen der Export in die Formate Dublin Core 1.1 XML oder EAD 2002 XML zur Verfügung.

Variante 2: Metadaten “ernten” mit VuFindHarvest

Die Archiv- und Bibliotheksinformationssysteme bieten eine OAI-PMH-Schnittstelle an, damit mit einer “Erntemaschine” (VuFindHarvest) auf angebotene Metadaten zugreifen und selber exportieren können. Mit VuFind können also Daten beispielsweise aus einer öffentlichen Datenbank abgegriffen werden, ohne dass man dort angemeldet sein müsste.

Eigenes Schaubild: Schritt 1

Abb.: “Ernten” von Metadaten aus Bibliotheks- oder Archivinformationssystemen mit VuFindHarvest

VuFindHarvest ist ein OAI Harvester aus dem VuFind-Projekt. Dieses in PHP geschriebene Tool erlaubt den Zugriff auf das Bibliotheks- oder Archivsystem via OAI-PMH-Schnittstelle auf die angebotenen Metadaten und deren Export auf den eigenen Rechner.

Vorgehen:

  1. VuFindHarvest mit Shell installieren (Composer wird als Paketverwaltung für PHP empfohlen)
sudo apt update
sudo apt install composer php php-xml
cd ~
wget https://github.com/vufind-org/vufindharvest/archive/v4.0.1.zip
unzip v4.0.1.zip
cd vufindharvest-4.0.1
composer install
  1. OAI-PMH-Endpoint: Sicherstellen, dass der OAI-PMH-Endpoint für das ausgewählte Bibliotheks- oder Archivinformationssystem verfügbar ist. Dazu muss das ausgewählte System mit einer URL zum OAI-PMH-Endpoint (z.B. http://demo.dspace.org/oai/request) im Browser geöffnet sein.

  2. Harvesting: Mit dem Tool VuFindHarvest die Daten aus dem System im gewünschten Format (z.B. MARCXML, EAD oder DC) auf die eigene Festplatte laden.

cd ~/vufindharvest-4.0.1
php bin/harvest_oai.php --url=http://example.com/oai_server --metadataPrefix=oai_dc my_target_dir

“Geerntete” Metadaten können in u.a. in MARC21-XML, EAD, Dublin Core vorliegen. Zur Kontrolle können die Dateien in einem Editor oder im Browser angeschaut werden.

Wie kann ich das Metadaten-Format ändern?

Selbstverständlich ist es hilfreich, wenn jenes Format aus der fremden Datenbank ausgespielt wird, das auch in die eigene Datenbank eingespiesen werden soll. Ist das nicht möglich, muss man einen Crosswalk machen.

Crosswalk?

Crosswalk ist ein gängiger Begriff, um die Konvertierung von einem Metadatenstandard in einen anderen zu beschreiben. Crosswalks = «Zebrastreifen». Der Crosswalk beinhaltet Regeln wie Elemente und Werte zugeordnet und verändert werden müssen. Dieser Regelprozess wird Mapping genannt. Im Idealfall verläuft die Konvertierung verlustfrei. Meistens ist allerdings keine 1:1-Zuordnung möglich, vgl. Beispiel MARC21 zu Dublin Core in Beitrag 2 “Funktion und Aufbau eines Bibliothekssystems”.

Eigenes Schaubild: Schritt 2

Abb.: Konvertierung/Crosswalk von einem Metadatenformat in ein anderes Metadatenformat

Metadaten austauschen?

Metadaten auszutauschen bedeutet einerseits, Daten zu exportieren oder per “Harvesting” zu holen aber andererseits auch diese wieder in ein System zu integrieren. Diese Datenintegration ist nichts weiter als ein Import der Metadaten. Damit Metadaten überhaupt ausgetauscht werden können, muss das Schema der jeweiligen Datensätze aufeinander abgestimmt sein. Das Modellieren der Metadaten wird im nächsten Beitrag thematisiert.

Weiter zu Beitrag 8 “Metadaten modellieren”.

tags: