Fraunhofer Fokus
Die Demovideos zeigen u.a. verschiedene Annotationsansätze sowie Wissensextraktionsdienste zur maschinellen Auswertung einer Vielzahl komplexer Dokumente.
Die Demovideos zeigen u.a. verschiedene Annotationsansätze sowie Wissensextraktionsdienste zur maschinellen Auswertung einer Vielzahl komplexer Dokumente.
Annotationsdienste erkennen Konzepte einer Wissensbasis in Texten und stellen so eine Verknüpfung zwischen natürlich-sprachigen Dokumenten zu einer Wissensbasis her. Mithilfe dieser Annotationsdienste wird eine Basis zur Analyse großer Textmengen geschaffen, die weiterführende Anwendungen, wie semantische Recherchesysteme oder automatisierte Informationsextraktion ermöglicht.
Die Demoapplikation zeigt verschiedene Annotationsansätze für deutsch- und englischsprachige Texte. Die Annotation kann einerseits KI-basiert erfolgen und so beispielsweise Orte, Personen, Organisationen, Produkte, Wertangaben und weitere Entitäten, die aus einer großen Datenmenge erlernt wurden, erkennen.
Andererseits kann die Annotation auf Basis einer fachspezifischen Ontologie erfolgen. Bei diesem Ansatz werden insbesondere fein abgegrenzte Fachtermini einer Domäne zuverlässig erkannt, voneinander unterschieden und den entsprechenden Konzepten eines Wissensmodells zugeordnet. Die Applikation demonstriert dieses Verfahren auf Basis der MeSH-Ontologie für medizinische Texte und einer Ontologie zur automatisierten Auswertung von Stellenanzeigen.
Wissensextraktionsdienste unterstützen die maschinelle Auswertung einer Vielzahl komplexer Dokumente. Die Economic-Insights-Applikation wertet unter Verwendung dieser Dienste die Geschäftsberichte deutscher Aktiengesellschaften vollautomatisch aus und überführt& darin enthaltene Prognosen zur ökonomischen Entwicklung in einen Wissensgraphen.
Dazu werden die mehrere Hundert Seiten umfassenden Dokumente analysiert, nach relevanten Aussagen gefiltert und diese Aussagen in ein maschinenlesbares Format überführt. Die so entstehende Wissensbasis ermöglicht den direkten Zugriff auf die relevanten Fakten aus einer großen Dokumentenmenge und ermöglicht dadurch eine effiziente Recherche und komplexe Auswertungen.
Der Ontology Lookup Service (OLS) ermöglicht die Verwaltung von Ontologien und bietet auch Zugriffs- und Abfragemöglichkeiten, entweder über eine Webschnittstelle oder programmatisch über API. Über die Webschnittstelle gibt es zwei Möglichkeiten zur Nutzung. Erstens über die Ontologie: Nutzer*innen können die Ontologie auf der obersten Ebene auswählen und durch die Baumansicht zu den unteren Ebenen bis zum gesuchten Term scrollen. Eine weitere Möglichkeit ist die Nutzung des Suchfeldes, um den zu suchenden Term einzugeben. Die angezeigten Ergebnisse verweisen auf alle Ontologien, in denen der Begriff gefunden wurde.
Programmatisch ermöglicht die REST-Programmierschnittstelle alle Ontologien oder deren Begriffe aufzulisten. Eine Ontologie oder ein Begriff lassen sich einschließlich lexikalischer und hierarchischer Informationen abrufen. Zusätzlich erlaubt ein Such-Endpunkt die Freitextsuche über Ontologien hinweg.
VIPRA ist ein modulares System, das mehrere Algorithmen zur Verarbeitung natürlicher Sprache verwendet, um
Dokumentkorpora und Algorithmen des Topic Modelings zu analysieren und zu konzentrieren, um daraus Topic Models zu generieren.
Die generierten Themenmodelle werden dann dazu verwendet, ein Netzwerk von Beziehungen zwischen Artikeln, Themen, Entitäten und Wörtern zu schaffen, um Artikel in mehrere Interessengruppen zu gruppieren und diese mit verschiedenen Metadaten zum Browsen und Suchen zu annotieren.
Diese Gruppen werden zusätzlich zu anderen Metainformationen, die aus den Artikeln und anderen Quellen, wie z.B. der DBpedia, abgerufen werden, verwendet, um eine einheitliche webbasierte Browsing- und Suchlösung bereitzustellen. Das erstellte System wird mit einem modularen Back-/Frontend-Ansatz durchsucht, der sich auf einen einfachen REST-basierten Webdienst zur Abfrage und Änderung der Backend-Daten stützt.
Das System ist einfach und intuitiv zu bedienen und bietet eine gute Userexperience, da es gleichzeitig viele Funktionen zum Filtern, Sortieren und Anzeigen von Daten sowie grafische Visualisierungen bietet.