Staatsbibliothek zu Berlin
Im Interview erläutert Clemens Neudecker, welche Innovationen QURATOR im Bereich der digitalen Kuratierung bringt und wie KI das kulturelle Erbe insgesamt bereichern wird.
Im Interview erläutert Clemens Neudecker, welche Innovationen QURATOR im Bereich der digitalen Kuratierung bringt und wie KI das kulturelle Erbe insgesamt bereichern wird.
Woran arbeitet die Staatsbibliothek zu Berlin im Projekt QURATOR?
Clemens Neudecker: Die Staatsbibliothek zu Berlin digitalisiert nach und nach alle Dokumente aus ihrem urheberrechtsfreien Bestand und stellt diese online frei zur Verfügung. Bevor man jedoch mit diesen digitalisierten Quellen genauso komfortabel arbeiten kann, wie wir es heute von digital-born Dokumenten gewöhnt sind, sind noch zahlreiche, hochkomplexe Verarbeitungsschritte und technische Herausforderungen zu meistern. Im Teilprojekt „Automatisierte Kuratierungstechnologien für das digitalisierte kulturelle Erbe“ beschäftigen wir uns mit zwei dieser grundsätzlichen Herausforderungen: Zum einen soll die Qualität der Digitalisierung durch KI-basierte Verfahren gesteigert werden, zum anderen wollen wir die Effizienz der Kuratierung mithilfe automatisierter Verfahren deutlich steigern. Ziel ist es, dass künftig mehr Dokumente schneller und besser erschlossen und damit auch leichter recherchierbar werden.
Welche Anwendungsszenarien entwickeln Sie?
Wir entwickeln Werkzeuge, um die Qualität der extrahierten Texte aus gescannten Dokumenten zu verbessern. Das ist eine wichtige Voraussetzung für die semantische Analyse und Anreicherung der Inhalte. Dafür werden Verfahren entwickelt, um Strukturen wie bspw. Kapitel, Abschnitte, Fußnoten etc. sowie Namen von Personen, Orten oder Ereignissen innerhalb von digitalisierten Dokumenten zu erkennen. Dergleichen Informationen werden aus den Dokumenten extrahiert und mit weiteren relevanten Quellen, sei es aus dem Bestand der Bibliothek oder aber auch von Dritten, wie Wikidata, verknüpft. An die Stelle von unstrukturierten Daten sollen schlussendlich strukturierte Inhalte treten.
Dank KI wird die automatische Verarbeitung von alten Drucken oder sogar Handschriften möglich – noch vor wenigen Jahren war dies undenkbar.
Welche Innovationen verbinden sich damit?
Die zu erwartenden technologischen Innovationen bestehen in erster Linie darin, die vielversprechenden Ansätze aus dem Feld der KI/des maschinellen Lernens auf die besonderen Anforderungen von historischen Dokumenten zu adaptieren. Da hierbei insbesondere die Verfügbarkeit von großen Mengen von Trainingsdaten eine wichtige Rolle spielt, sehen wir uns dafür aber mit rund 2,5 PetaBytes an Daten gut gerüstet.
Aktuell arbeiten wir bereits in weiteren Forschungsprojekten mit Technologien wie Künstlicher Intelligenz – so z.B. in dem von der DFG geförderten Projekt OCR-D. Dort werden momentan im Bereich der Texterkennung (OCR) dank KI Durchbrüche erzielt, die vor wenigen Jahren noch undenkbar waren, wie bspw. die qualitativ hochwertige Verarbeitung von historischen Drucken oder sogar die automatische Erkennung von Handschriften. Mittelfristig will sich die Staatsbibliothek zu Berlin im Bereich der KI-Forschung für das kulturelle Erbe eine Führungsposition aufbauen.
Die Staatsbibliothek zu Berlin will im Bereich der KI-Forschung für das kulturelle Erbe eine Führungsposition aufbauen.
Und wie sieht die Bibliothek der Zukunft aus?
Vom Bücherspeicher zur Informationsinfrastruktur: Bibliotheken sind wie kaum ein anderes Feld vom digitalen Wandel betroffen. Die Digitale Transformation krempelt dabei viele etablierte Geschäftsprozesse einer Bibliothek grundlegend um. Darüber hinaus gibt es mit dem Forschungsbereich der „Digital Humanities“ seit einigen Jahren einen stark wachsenden Kreis von Forscher*innen, die mit großen Mengen von digitalisierten Beständen aus dem Kulturbereich und digitalen Methoden an neuen Forschungsfragen arbeiten.
Clemens Neudecker ist Referent für Forschung in der Generaldirektion der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz.
Die Staatsbibliothek zu Berlin ist die größte wissenschaftliche Universalbibliothek Deutschlands. Ihr über 350 Jahre gewachsener Bestand umfasst aktuell rund 12 Millionen Bände sowie mehrere Millionen weiterer Druckwerke wie Karten, Noten, Handschriften oder Zeitungen. Die Staatsbibliothek zu Berlin ist Teil der Stiftung Preußischer Kulturbesitz, einem in Europa einzigartigem Zusammenschluss von Bibliotheken, Museen, Archiven und Forschungsinstituten mit herausragenden Sammlungen aus allen Sparten der kulturellen Überlieferung.
Staatsbibliothek zu Berlin Preußischer Kulturbesitz
Potsdamer Straße 33
10785 Berlin
clemens.neudecker@europeana-newspapers.eu
+49-(0)30-266-434081