Neue
Kommunikation für
eine neue Zeit

Staatsbibliothek zu Berlin

Im Interview erläutert Clemens Neudecker, welche Innovationen QURATOR im Bereich der digitalen Kuratierung bringt und wie KI das kulturelle Erbe insgesamt bereichern wird

Vom Bücherspeicher zur Informationsinfrastruktur: Die Bibliothek erfindet sich neu

Woran arbeitet die Staatsbibliothek zu Berlin im Projekt QURATOR?

Clemens Neudecker: Die Staatsbibliothek zu Berlin digitalisiert nach und nach alle Dokumente aus ihrem urheberrechtsfreien Bestand und stellt diese online frei zur Verfügung. Bevor man jedoch mit diesen digitalisierten Quellen genauso komfortabel arbeiten kann, wie wir es heute von digital-born Dokumenten gewöhnt sind, sind noch zahlreiche, hochkomplexe Verarbeitungsschritte und technische Herausforderungen zu meistern. Im Teilprojekt „Automatisierte Kuratierungstechnologien für das digitalisierte kulturelle Erbe“ beschäftigen wir uns mit zwei dieser grundsätzlichen Herausforderungen: Zum einen soll die Qualität der Digitalisierung durch KI-basierte Verfahren gesteigert werden, zum anderen wollen wir die Effizienz der Kuratierung mithilfe automatisierter Verfahren deutlich steigern. Ziel ist es, dass künftig mehr Dokumente schneller und besser erschlossen und damit auch leichter recherchierbar werden.

Welche Anwendungsszenarien entwickeln Sie?

Wir entwickeln Werkzeuge, um die Qualität der extrahierten Texte aus gescannten Dokumenten zu verbessern. Das ist eine wichtige Voraussetzung für die semantische Analyse und Anreicherung der Inhalte. Dafür werden Verfahren entwickelt, um Strukturen wie bspw. Kapitel, Abschnitte, Fußnoten etc. sowie Namen von Personen, Orten oder Ereignissen innerhalb von digitalisierten Dokumenten zu erkennen. Dergleichen Informationen werden aus den Dokumenten extrahiert und mit weiteren relevanten Quellen, sei es aus dem Bestand der Bibliothek oder aber auch von Dritten, wie Wikidata, verknüpft. An die Stelle von unstrukturierten Daten sollen schlussendlich strukturierte Inhalte treten.

Staatsbibliothek zu Berlin

Dank KI wird die automatische Verarbeitung von alten Drucken oder sogar Handschriften möglich – noch vor wenigen Jahren war dies undenkbar.

Welche Innovationen verbinden sich damit?

Die zu erwartenden technologischen Innovationen bestehen in erster Linie darin, die vielversprechenden Ansätze aus dem Feld der KI/des maschinellen Lernens auf die besonderen Anforderungen von historischen Dokumenten zu adaptieren. Da hierbei insbesondere die Verfügbarkeit von großen Mengen von Trainingsdaten eine wichtige Rolle spielt, sehen wir uns dafür aber mit rund 2,5 PetaBytes an Daten gut gerüstet.

Aktuell arbeiten wir bereits in weiteren Forschungsprojekten mit Technologien wie Künstlicher Intelligenz – so z.B. in dem von der DFG geförderten Projekt OCR-D. Dort werden momentan im Bereich der Texterkennung (OCR) dank KI Durchbrüche erzielt, die vor wenigen Jahren noch undenkbar waren, wie bspw. die qualitativ hochwertige Verarbeitung von historischen Drucken oder sogar die automatische Erkennung von Handschriften. Mittelfristig will sich die Staatsbibliothek zu Berlin im Bereich der KI-Forschung für das kulturelle Erbe eine Führungsposition aufbauen.

 

Staatsbibliothek zu Berlin

Die Staatsbibliothek zu Berlin will im Bereich der KI-Forschung für das kulturelle Erbe eine Führungsposition aufbauen.

Und wie sieht die Bibliothek der Zukunft aus?

Vom Bücherspeicher zur Informationsinfrastruktur: Bibliotheken sind wie kaum ein anderes Feld vom digitalen Wandel betroffen. Die Digitale Transformation krempelt dabei viele etablierte Geschäftsprozesse einer Bibliothek grundlegend um. Darüber hinaus gibt es mit dem Forschungsbereich der „Digital Humanities“ seit einigen Jahren einen stark wachsenden Kreis von Forscher*innen, die mit großen Mengen von digitalisierten Beständen aus dem Kulturbereich und digitalen Methoden an neuen Forschungsfragen arbeiten.

Clemens Neudecker ist Referent für Forschung in der Generaldirektion der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz.

Staatsbibliothek zu Berlin

Über die Staatsbibliothek zu Berlin

Die Staatsbibliothek zu Berlin ist die größte wissenschaftliche Universalbibliothek Deutschlands. Ihr über 350 Jahre gewachsener Bestand umfasst aktuell rund 12 Millionen Bände sowie mehrere Millionen weiterer Druckwerke wie Karten, Noten, Handschriften oder Zeitungen. Die Staatsbibliothek zu Berlin ist Teil der Stiftung Preußischer Kulturbesitz, einem in Europa einzigartigem Zusammenschluss von Bibliotheken, Museen, Archiven und Forschungsinstituten mit herausragenden Sammlungen aus allen Sparten der kulturellen Überlieferung.

Ansprechpartner

Clemens Neudecker

Staatsbibliothek zu Berlin Preußischer Kulturbesitz
Potsdamer Straße 33
10785 Berlin
clemens.neudecker@europeana-newspapers.eu
+49-(0)30-266-434081

News

Automaten und künstliche Menschen bei E.T.A. Hoffmann – „eine beunruhigende Faszination“

Die Automatenkunst als Vorläufer Künstlicher Intelligenz und KI-Systemen faszinierte die Gesellschaft bereits im 19. Jahrhundert. Besonders intensiv hat sich der Musiker, Zeichner und Schriftsteller E.T.A. Hoffmann in den 1810er Jahren mit Automaten, belebten Maschinen und roboterhaften Menschen auseinandergesetzt. In einem Blogbeitrag im Rahmen des Wissenschaftsjahres 2019 setzt sich Christina Schmitz mit dem Thema auseinander.
Zum Blogbeitrag