BAIN?!

Fragen und Antworten zu Bibliotheks- und Archivinformatik

View the Project on GitHub KKBuhler/BAIN

27 November 2020

8: Metadaten modellieren

by K.K.Buhler

MARCEDIT & OPENREFINE

In diesem Beitrag werden die bibliografischen Metadaten fokussiert, die für den Datenaustausch richtig aufbereitet werden müssen. Bevor dazu zwei Tools vorgestellt werden, gilt es die Bedeutung von Feldern, welche strukturierte Daten ausmachen, zu verstehen …

Weshalb ist die Zuordnung von Feldern wichtig?

Die Metadaten in Bibliotheks- und Archivinformationssystemen werden nach bestimmten Standards erfasst, wodurch bestimmte Felder vorgegeben sind. Üblicherweise sollte vor dem Import der Daten in einem Schema festgelegt werden, welche Felder existieren und welche Datentypen diese beinhalten dürfen. Es gilt also, im Vorfeld vorhandene Felder zu recherchieren und eigene Daten vor dem Import daran anzupassen. Ohne hinterlegtem Schema, also “schemaless” ist nur eine Volltextsuche möglich. Wollen mit einer erweiterten Suche bestimmte Felder durchsucht oder oder Relevanzen erstellt werden können, macht das Festlegen eines Schemas Sinn. Damit Datensätze abgeglichen werden können, muss ein Schlüsselidentifikator gesetzt werden. Dazu bietet sich bei den Marc-Daten das Feld 1 ein, um es mit einer eindeutigen ID zu versehen.

Damit Anpassungen bei grossen Datensätzen nicht händisch vorgenommen werden müssen, gibt es Tool wie MarcEdit und OpenRefine:

Was ist MarcEdit?

MarcEdit ist die weit verbreiteste Software für MARC-Daten, v.a. im Bibliotheksbereich. MarcEdit ist eine kostenlos nutzbare Software (aber nicht Open Source). Diesen Datenwandler mit visueller Oberfläche gibt es auch für Windows. Download von MarcEdit für Windows Weil die Installation von MarcEdit auch ohne Shell geht, verzichte ich hier auf die Ausführungen dazu. In Linux müsste eine Korrektur der Voreinstellungen vorgenommen werden, die bei der Nutzung mit Windows wohl wegfällt.

Wikipedia beschreibt MarcEdit so:

MarcEdit is a metadata editing software suite used primarily to create and manipulate MARC records. Originally developed by Terry Reese in 1999 for a major database cleanup project at Oregon State University, the software was subsequently released for wider use in the LIS field. As of 2011, it was used in 143 different countries.

MarcEdit

Abb.: Verschiedene Module in MarcEdit

Die Module zeigen mögliche Einsatzbereiche von MarcEdit. In der BAIN-Vorlesung wird MarcEdit als Format-Umwandler benutzt. Mit Tools können Daten vom einen Format in ein anderes Format umgewandelt werden:

MarcEdit

Abb.: Mit Tools Datenformate umwandeln

Wer MarcEdit und die Vorzüge der Software kennenlernen will: Lehrmaterialien von Library Carpentry zu MarcEdit

Was ist OpenRefine?

OpenRefine (vorher Google Refine) ist ein mächtiges Werkzeug, um unordentliche Daten zu bereinigen und vom einen in ein anderes Format zu transformieren. OpenRefine eignet sich besonders, um Inkonsistenzen im Datensatz zu erkennen und zu bereinigen. Zudem erhält die Nutzer’in rasch einen Überblick über die Daten. OpenRefine ist kein Webservice und sensible Daten können auf dem eigenen Rechner ausgewertet werden. OpenRefine ist eine Desktop App und benutzt den eigenen Browser, um mit den Daten zu interagieren. OpenRefine ist in mehr als 15 Sprachen erhältlich.

Abb.: Einsatzbereiche von OpenRefine

Die Grafik zeigt, dass OpenRefine heute am häufigsten zur Normalisierung von Daten, also zur Behebung von Fehlern in Datensätzen, benutzt wird. Neu steht an zweiter Stelle die Aufbereitung der Daten für den Export in eine andere Datenbank. Die Dateitransformation, der Wechsel von einem Format in ein anderes Format, hat in den letzten zwei Jahren an Bedeutung verloren.

OpenRefine kann benutzt werden, um das eigene Datenset zu verlinken und mit mit anderen Webservices zu erweitern. Die zentrale Datenbank Wikidata erlaubt OpenRefine beispielsweise die bereinigten Daten auf die Plattform zu laden. Zudem sind Erweiterungen und Plug-ins auf GitHub-OpenRefine-Wiki verfügbar.

Diese Library Carpentry Lektion führt in die Funktionen von OpenRefine ein, und fördert das Verständnis, wie die Software mit den Daten umgeht:

Abb.: Übungen zum Verständnis von OpenRefine

Im Rahmen der BAIN-Vorlesungen wurden die Lektion als Hausaufgabe gestellt. Um hier nicht unzählige Screenshots anzuzeigen und Vorgänge umständlich zu beschreiben, gibt es nachfolgend eine kurze, aufschlussreiche Video-Einführung in OpenRefine:


Das Video zeigt, wie Daten nach Inkosistenzen befragt und diese bereinigt werden. Beispielsweiste können Fehler wie Leerschläge im Wort durch Anpassungen in der “Text Facet” ausgemerzt oder Zellen und Gruppen in der Datentabelle gruppiert werden. Weiter sieht die Bearbeitung der Daten “Numeric Facet” eine nützliche Eingrenzung des Zahlenraums vor. And good to know: Jeder einzelne Editierschritt kann rückgängig gemacht werden! Keine Sorge also bei der Gruppierung, Isolierung, Umbenennung der Daten.

Zudem gibt es weitere hilfreiche Videos, die einen Einblick in die Möglichkeiten von OpenRefine geben, wie dieses Online Short-Seminar:


Abb.: OpenRefine Takeaways

Weiter zu Beitrag 9 “Discovery-Systeme und Suchmaschinen”.

tags: