Wikidata, Künstliche Intelligenz und das Projekt Qurator

Herr Rehm, woran arbeiten Sie am Speech and Language Technology Lab des DFKI?

REHM: Bei uns dreht sich alles um das Thema Sprache. Die meisten Projekte befassen sich mit Textanalytik: Wie lässt sich aus Texten, Dokumenten, Tweets oder wissenschaftlichen Papieren bestimmtes Wissen extrahieren? Wir versuchen zum Beispiel, Nennungen von Personennamen, Organisationsnamen, oder Ereignisnamen zu finden und abzubilden auf externe Wissensbasen. Eine davon ist Wikidata. Andere Projekte beschäftigen sich mit Textklassifikation, mit Hate Speech Detection, Fake News Detection und auch mit maschineller Übersetzung.

Frau Pintscher, welche Rolle hat Wikidata im Projekt QURATOR?

PINTSCHER: Momentan beschreibt Wikidata als Wikimedias Wissensdatenbank knapp 100 Millionen Entitäten – und rund 13.000 aktive Editor* kümmern sich aktuell um diese Daten. Es ist eine Menge Arbeit, sie zu pflegen, anzureichern, Verknüpfungen zwischen ihnen herzustellen. Da Wikidata mittlerweile ein grundlegender Baustein vieler Technologien ist, die tagtäglich Anwendung finden, sind wir in der Bringschuld, die Datenqualität hochzuhalten. Darauf haben wir uns als Teil des QURATOR-Projekts konzentriert. Es geht einerseits darum, den Editierenden bessere Werkzeuge zur Verfügung zu stellen, mit denen sie Probleme in den Daten identifizieren und beheben können. Und andererseits wollen wir die Daten zugänglicher machen, damit Organisationen wie das DFKI und andere Einrichtungen darauf aufbauen, neue Apps entwickeln oder Forschung betreiben können.

Was ist das Besondere an dieser Kooperation aus Ihrer jeweiligen Perspektive? Was war die Motivation, mit den unterschiedlichen Partnern zusammenzuarbeiten?

PINTSCHER: Das Projekt ermöglicht es uns, mit Organisationen im Konsortium zusammen zu arbeiten, mit denen wir ansonsten nicht, oder nicht so intensiv in Kontakt gekommen wären. Wir lernen dabei viel voneinander. Die Expertise, die das DFKI rund um das Thema Machine-Learning hat, gibt wertvolle Anstöße. Eine konkrete Herausforderung ist für uns zum Beispiel die Frage, wie wir mit Tendenzen und Lücken in Wikidata umgehen: Daten, die wir nicht haben, oder Daten, die bestimmte Länder oder Personen anders beschreiben als andere. Dieses Problem betrifft nicht nur Wikidata, sondern das Machine-Learning überhaupt. Hier war und ist der Austausch hilfreich.

REHM: Wir hatten ein Vorgängerprojekt, das hieß „Digitale Kuratierungstechnologien“. Beim digitalen Kuratieren steht für uns die Frage im Fokus: Welche Technologien können dabei helfen? Ein Beispiel, an dem sich das veranschaulichen lässt, ist die Arbeit von Journalistinnen und Journalisten, die Artikel oder Hashtags zu einem bestimmten Thema beobachten müssen – und geflutet werden mit eingehendem Content, mit Facebook-Posts, Telegram, Instagram, den üblichen Nachrichtentickern, die man dabei natürlich alle auf dem Schirm behalten muss. Lassen sich also Technologien entwickeln, um die journalistische Arbeit zu erleichtern? Können wir einen smarten Editor bauen, der – basierend auf dem aktuellen Sachstand der Journalistin oder des Journalisten – Posts identifiziert, die überraschende Neuigkeiten enthalten könnte? Dafür versuchen wir Lösungen zu finden. Wikidata ist ein wichtiger Datenpartner in diesem Projekt. Wir wollen dabei auch gemeinsam untersuchen, ob es Dellen, Plateaus oder Peaks in der Datensammlung gibt oder unerwünschten Bias, also eine Verzerrung. Diese Themen werden immer wichtiger, um Objektivität und Neutralität zu gewährleisten.

Könnten Sie das Problem Bias an einem Beispiel beschreiben?

REHM: Um ein Negativbeispiel zu nennen: Es gab einen Chatbot, entwickelt von einer amerikanischen IT-Firma, der quasi automatisch getwittert hat. Dieser Bot wurde nach sehr kurzer Zeit wieder abgeschaltet, weil leider niemand darauf geachtet hat, mit welchen Daten er trainiert wurde – darunter waren auch rechtsradikale Inhalte. Für das Zusammenstellen dieser Trainingsdaten wurde sogenanntes Webcrawling betrieben, d.h. es wurden automatisch Millionen von Webdokumenten eingesammelt. Und im Betrieb fing der Chatbot dann plötzlich an, rechtsradikale Begriffe zu benutzen. Diese Inhalte waren Teil der Trainingsdaten und haben quasi das Sprachmodell des Chatbots beeinflusst, ihn also radikalisiert. Das ist ein Bias, den man nicht haben möchte.

PINTSCHER: Wir haben in Wikipedia das Paradebeispiel des Gender-Bias, also der Unterrepräsentanz von Frauen. Einerseits wird die Bevölkerung nicht widergespiegelt. Und gleichzeitig verweist dieses Problem auch auf die Vergangenheit: Welche Frauen hatten denn überhaupt die Möglichkeit, Bücher zu veröffentlichen, wissenschaftliche Arbeit zu betreiben, um an den Punkt zu gelangen, an dem sie für Wikipedia relevant werden? Das waren leider keine paritätischen Verhältnisse.

Herr Rehm, wie genau verfahren Sie mit Wikidata?

REHM: In Wikidata findet sich eine riesige Menge von strukturierten Informationen, die zudem auch noch miteinander verknüpft sind, die inhärent Wissen enthalten, z.B. über Oberklassen, Ausprägungen, Properties. Ein Beispiel: John F. Kennedy. In maschinenlesbarer Form liegt die Information vor, dass JFK ein Mensch ist. Alle Menschen haben ein Geburtsdatum, die bereits Gestorbenen zudem ein Sterbedatum, ferner liegen Informationen zu den Todesumständen vor.

All diese Informationen können wir nutzen, um weitere Verarbeitungsschritte durchzuführen. Wenn ich mit einem Named Entity Recognizer eine Zeichenkette wie „JFK“ erfolgreich auf ein entsprechendes Wikidata-Item abbilden kann, dann habe ich zugleich Zugriff auf das Geburtsdatum, ggf. das Todesdatum und evtl. den Ort, wo die Person gestorben ist. Damit lassen sich viele weitere smarte Verarbeitungsschritte aktivieren und Anwendungen realisieren, z.B. im Bereich der geopolitischen oder soziologischen Analysen sowie auch im Bereich der digitalen Geisteswissenschaften (Digital Humanities), wo Wikidata eine immer populärer werdende Sammlung von Forschungsdaten darstellt. Über Wikidata können wir sogar auf noch weitere Wissensquellen zugreifen, um noch mehr Querbezüge herzustellen. Dieser Ansatz, der auch als Linked Data bezeichnet wird, ist sehr mächtig.

Frau Pintscher, wie hat sich Wikidata im Rahmen von QURATOR weiterentwickeln können?

PINTSCHER: Unter anderem haben wir uns mit sogenannten Schemas beschäftigt. Wikidata macht es relativ einfach, die Welt in ihrer Komplexität zu beschreiben. Dem entgegen steht der Versuch, in diese Komplexität Struktur zu bringen. Wir haben Werkzeuge entwickelt, die es den Editierenden ermöglichen, Stellen in Wikidata zu finden, bei denen entweder ein Fehler, oder eine Ausnahme vorliegt. Es gibt das berühmte Beispiel einer Frau, die den Eiffelturm geheiratet hat. Die Eingabe solcher Daten wollen wir natürlich nicht verhindern. Die Editierenden geben ein, was sie wollen – und können dann mit Hilfe von Schemas die Konsistenz der Daten automatisiert prüfen. Das gleiche gilt für Kuriositäten: zum Beispiel Haustiere, die Diplome bekommen. Um solche automatisiert zu finden, haben wir ebenfalls ein Werkzeug entwickelt.

Wie fällt aus Sicht des DFKI die Bilanz der Zusammenarbeit aus?

REHM: Das klingt beinahe so, als sei das Projekt schon zu Ende, aber wir haben im Projekt QURATOR ja noch mehr als ein halbes Jahr vor uns und wollen noch vieles gemeinsam realisieren. Ich hoffe, dass sich aus Diskussionen wie der wichtigen Debatte über Bias interessante Forschungsarbeiten entwickeln. Ferner ist unser Ziel, der Wikidata-Community zu helfen, die Ressource besser zu nutzen, intuitiver zugänglich zu machen, Qualität zu messen, transparenter zu agieren. Ich freue mich auf die weitere Zusammenarbeit, fand die bisherige schon sehr gut und hoffe zudem auch, dass wir Folgeprojekte gemeinsam bearbeiten können.

Das Gespräch führte Elisabeth Giesemann, Text: Patrick Wildermann.

Das Inteview erschien zuerst im Wikimedia Jahresbericht 2020.

* Beteiligt an QURATOR sind: 3pc GmbH Neue Kommunikation, Ada Health GmbH, ART+COM AG, Condat AG, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Fraunhofer Gesellschaft – Fraunhofer Institut für offene Kommunikationsdienste, Semtation GmbH, Stiftung Preußischer Kulturbesitz/Staatsbibliothek zu Berlin, Ubermetrics Technologies GmbH und Wikimedia Deutschland e. V.