resources.museum-digital.org - Gemeinfreie Quellen nutzbarer machen

Über die letzten Jahrzehnte wurden tausende gemeinfreie Bücher von Bibliotheken und Initiativen wie dem Internet Archive und Google Books gescannt und der Öffentlichkeit prinzipiell einfach über das Netz zugänglich gemacht. Eine Suche innerhalb dieser wird aber bis heute oft durch eine veraltete OCR und die - logische und an sich gute - Beibehaltung des alten Mediums in digitaler Form (d.h. z.B. als PDF-Dateien) erschwert.

Im Rahmen der Vokabulararbeit bei museum-digital geht es oft um die Recherche nach bisher wenig bekannten und erschlossenen historischen Persönlichkeiten, Orten, und Schlagworten bzw. Konzepten. Dasselbe gilt für nur lokal oder in einem sehr spezifischen Kontext genutzte Ortsbegriffe und Konzepte.

Online verfügbare historische Quellen können dabei oft ungemein helfen. Besonders, wenn man weiß, wo man gucken muss. Eine aufbereitete Form dieser, die eine Findbarkeit der Inhalte (und eben nicht eines Nachschlagewerkes als Ganzem) ermöglichen würde, würde mehr helfen. Dazu soll resources.museum-digital.org dienen.

Methode

Die hier verfügbaren gemeinfreien Werke wurden auf Basis bestehender, online verfügbarer Scans in verlinkte Webseiten umgewandelt. Da sich entgegen der vorherigen Annahmen oft nicht mit der bestehenden OCR arbeiten lässt, haben wir einen Workflow entwickelt, um die Quellen automatisch gut genug aufzubereiten, um sie sinnvoll in neuer Form präsentieren zu können.

  1. Erstellung einer Projekt-Konfigurationsdatei für jeden neuen Band Diese beinhaltet neben der Referenzierung der Quelle für die Erstellung und Auswertung der Quelle nötigen Kontextinformationen.
  2. Ggfs. Nachbearbeitung der bestehenden Scans zur Verbesserung einer neuen OCR
  3. Erstellung einer neuen OCR
  4. KI-gestützte Prüfung und Korrektur der OCR
  5. Aufspaltung der Quelle in einzelne logische Sinneinheiten (z.B. einzelne Lexikoneinträge)
  6. Identifikation referenzierter Entitäten (Named Entity Recognition)
    • Akteure
    • Orte
    • Zeiten
    • Kunstrichtungen
    • Berufe
  7. Prüfung der identifizierten Entitäten gegen die Reconciliation APIs von museum-digital
  8. Optionale Reconciliation der Eintrags-Titel gegen Wikidata
  9. Erstellung von Markdown-Dateien für jeden Eintrag
  10. Generierung dieser Seite mit Zola

Verfügbarkeit und Korrekturen

Alle textlichen Arbeitsdateien stehen zur freien Nachnutzung in einem Codeberg-Repository bereit.

  • Für maschinelle Nachnutzung können die in den einzelnen Projektordnern unter (/works) vorliegenden JSON-Dateien genutzt werden
  • Für Korrekturen können die unter /finalized/content vorliegenden Markdown-Dateien bearbeitet werden

Das Repository findet sich unter https://codeberg.org/museum-digital/resources.museum-digital.org.

Verfügbare Werke

  • Nagler. Neues Allgemeines Künstlerlexikon. Künstlerlexikon in 22 Bänden aus den Jahren von 1835-1852.

Unterseiten