Neue
Kommunikation für
eine neue Zeit
Clemens Neudecker, Staatsbibliothek zu Berlin

Staatsbibliothek zu Berlin

Die Demoapplikationen zeigen u.a. OCR-Werkzeuge, die die Qualität von extrahierten Texten aus gescannten Dokumenten deutlich verbessern sowie eine vielschichtige Bildsuche.

Gescannte Dokumente lesbar machen

Die digitalisierten Sammlungen der Staatsbibliothek Berlin umfassen etwa 5 Millionen gescannte Dokumentenseiten. Ein Großteil von diesen ist allerdings weder durchsuchbar noch für eine Textanalyse geeignet. Dies will die Staatsbibliothek im Projekt QURATOR ändern. Eine Layouterkennung auf Basis von Convolutional Neural Networks erkennt Textzeilen, die auf Basis von Recurrent Neural Networks "gelesen" werden können. Dadurch kann ein Volltext in sehr guter Qualität und Kodierung erzeugt werden. Des Weiteren ermöglicht ein Werkzeug zur Evaluation die Visualisierung von Fehlern und deren Bewertung. 

Intelligente Bildsuche

Äußerst komfortabel ist auch die Bildsuche in digitalisierten Dokumenten. Sie ermöglicht das Durchsuchen aller Abbildungen anhand eines hochgeladenen Referenzbildes. Zusätzlich zeigt die Suche themenverwandte Bilder an. Ein weiteres hilfreiches Feature: Durch die Auswahl einer Bildregion können gezielt einzelne Ausschnitte eines Bildes gesucht werden.

Ansprechpartner

Clemens Neudecker

clemens.neudecker@sbb.spk-berlin.de 
+49-(0)30-266-434081