2.2.2 Übung: Vergleich der verschiedenen Formate

Im vorigen Abschnitt haben wir beispielhaft Katalogdaten in verschiedenen Formaten heruntergeladen. Jetzt stellt sich die Frage, mit welchem dieser Formate wir weiterarbeiten wollen. Wie eingangs beschrieben, suchen wir ein einfach zu verarbeitendes, gut strukturiertes Format, dass alle benötigten Daten beinhaltet. Um eine Entscheidung für eines der Formate treffen zu können, sollten wir die heruntergeladenen Metadaten mit dem OPAC abgleichen (Aufgabe 1) und die Formate untereinander vergleichen (Aufgabe 2).

Aufgabe 1: Heruntergeladene Metadaten mit der Anzeige im OPAC abgleichen

Im Katalog der Bibliothek des Kurt-Schwitters-Forums werden in der Detailansicht eine ganze Reihe von Metadaten zu den Bibliotheksbeständen angezeigt, die wir auch in unserem zukünftigen Katalog verwenden wollen. Suchen Sie einzelne Wörter aus dem Katalogeintrag in den heruntergeladenen Metadaten, um festzustellen, ob diese Wörter in den jeweiligen Formaten überhaupt enthalten sind.

Am einfachsten ist es, wenn Sie dazu Texte im OPAC markieren, in die Zwischenablage kopieren STRG+C und im Terminal einfügen (Rechtsklick und "einfügen" auswählen).

Lösung

Hier ein Beispiel für die PPN 834422018. Wenn Sie in der vorigen Übung andere Beispieldaten heruntergeladen haben, müssen Sie die Zahl entsprechend ersetzen.

PPN direkt im OPAC aufrufen:

  • http://opac.tib.eu/DB=11/XMLPRS=N/PPN?PPN=834422018

Suche nach Textschnipseln in den heruntergeladenen Metadaten:

  • grep -i -n -H "Lehrbuch" 834422018*

Aufgabe 2: Direkter Vergleich der Metadatenformate

Vergleichen Sie das interne Format des Bibliothekssystems (PICA+/PICAXML) mit den ebenfalls über die Schnittstellen des GBV angebotenen Formaten MARC21/MARCXML, DC und MODS. Die Umwandlung von PICA+ in PICAXML und MARC21 in MARCXML ist verlustfrei, so dass nur drei Vergleiche zu tätigen sind:

  1. PICAXML vs. MARCXML
  2. PICAXML vs. DC
  3. PICAXML vs. MODS

Hinweise:

Lösung

Im Folgenden wird eine mögliche Lösung beschrieben, die Tools auf der Kommandozeile nutzt, um die heruntergeladenen Daten zu vereinheitlichen und dann automatisch zu vergleichen. Wenn Sie die jeweiligen Formate manuell miteinander verglichen haben, ist das auch vollkommen ok. In dieser Übung geht es nicht um Tricks auf der Kommandozeile, sondern um die Unterschiede der Metadatenformate ;-).

Vorverarbeitung:

  • picaxml: curl -s "http://unapi.gbv.de/?id=opac-de-960-3:ppn:834422018&format=picaxml" | sed 's/^ *//; s/ *$//; /^$/d; s/<[^>]*>//g' | sort | uniq > 834422018.picaxml.strip
  • marcxml: curl -s "http://unapi.gbv.de/?id=opac-de-960-3:ppn:834422018&format=marcxml" | sed 's/--/\n/g' | sed 's/^ *//; s/ *$//; /^$/d; s/<[^>]*>//g' | sort | uniq > 834422018.marcxml.strip
  • dc: curl -s "http://unapi.gbv.de/?id=opac-de-960-3:ppn:834422018&format=dc" | sed 's/^ *//; s/ *$//; /^$/d; s/<[^>]*>//g' | sort | uniq > 834422018.dc.strip
  • mods: curl -s "http://unapi.gbv.de/?id=opac-de-960-3:ppn:834422018&format=mods" | sed 's/^ *//; s/ *$//; /^$/d; s/<[^>]*>//g' | sort | uniq > 834422018.mods.strip

Vergleich picaxml mit marcmxl/dc/mods:

  • picaxml vs. marcxml: diff -u 834422018.picaxml.strip 834422018.marcxml.strip
  • picaxml vs. dc: diff -u 834422018.picaxml.strip 834422018.dc.strip
  • picaxml vs. mods: diff -u 834422018.picaxml.strip 834422018.mods.strip

Grafischer Vergleich picaxml mit marcxml/dc/mods:

  • Installation vim: sudo apt-get install vim
  • picaxml vs. marcxml: vimdiff 834422018.picaxml.strip 834422018.marcxml.strip
  • picaxml vs. dc: vimdiff 834422018.picaxml.strip 834422018.dc.strip
  • picaxml vs. mods: vimdiff 834422018.picaxml.strip 834422018.mods.strip
  • Tipp: Beenden von vimdiff mit zweimal :q und enter

Erläuterungen zu einzelnen Schritten der Vorverarbeitung:

  • keine Statusinfos ausgeben (silent): curl -s
  • Leerzeichen links entfernen: sed 's/^ *//'
  • Leerzeichen rechts entfernen: sed 's/ *$//'
  • Leere Zeilen entfernen: sed '/^$/d'
  • Trennzeichen -- durch Zeilenumbrüche ersetzen(marcxml): sed 's/--/\n/g'
  • Alle Zeilen alphanumerisch sortieren: sort
  • Doppelte Zeilen entfernen: uniq

results matching ""

    No results matching ""