Erzählte Geschichte, Emotionen und Künstliche Intelligenz – wie passt das zusammen?
21. Juni 2021 | Nike Matthiesen

Multimodales Mining ist hier das Stichwort, zumindest aus technischer Sicht. Doch bevor wir diese Methode genauer erläutern, gehen wir zunächst einige Schritte zurück und erklären wer „Wir” überhaupt sind und was wir vorhaben. „Wir” meint ein Team aus Wissenschaftler*innen der Stiftung Haus der Geschichte der Bundesrepublik Deutschland in Bonn und des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme (IAIS) in Sankt Augustin. Seit Oktober 2020 arbeiten wir gemeinsam an einem innovativen Forschungsprojekt, in dem eine neuartige Verbindung von erzählter Geschichte in Form von Zeitzeugeninterviews und Künstlicher Intelligenz hergestellt wird. Ziel des Projektes ist es, in zwei Jahren einen KI-basierten Software-Prototyp zu entwickeln, der Emotionen in Aufzeichnungen von Zeitzeugeninterviews erkennt und auffindbar macht.
Warum möchten wir Emotionen in den Zeitzeugeninterviews sichtbar machen?
Mit der Kamera gefilmte Zeitzeugeninterviews sind fester Bestandteil musealer Ausstellungs- und Vermittlungspraxis. Sie ermöglichen individuelle und persönliche Zugänge zu historischen Ereignissen. Emotionen spielen hierbei oft eine große Rolle, etwa indem sie die Betrachterin oder den Betrachter Erlebtes mitfühlen lassen, wie beispielsweise bei Volker Schröder, einem Zeitzeugen aus unserem Bestand. Er demonstrierte im Jahr 1968 während der Studentenproteste in West-Berlin gegen den Vietnamkrieg, die Notstandsgesetze und den Axel-Springer-Konzern. Ergriffen erzählt er im Zeitzeugeninterview von der Situation, als er während einer Demonstration von einem Wasserwerfer erfasst wurde. Auf einem historischen Foto ist zu sehen, wie er resigniert die Arme in die Luft reißt. Noch heute berührt ihn diese Situation sehr.
Volker Schröder bei den Studentenprotesten 1968
”Dann kamen die Polizisten mit Gummiknüppeln und dann habe ich versucht, die zu überzeugen und war so empört und so in Rage, dass die mir auch nichts getan haben.
“
Während Volker Schröder sich an die Erlebnisse erinnert und davon berichtet, werden im Video des Zeitzeugeninterviews verschiedene Emotionen sichtbar: Überraschung, Wut, Angst und auch Erleichterung, die die Erinnerung an die Erlebnisse bei der Demonstration maßgeblich prägen. Genau diese Emotionen, die wir als menschliche Zuschauer*innen wahrnehmen, soll die KI-Software automatisiert erkennen. Bisher wurden in der Auswertung von Zeitzeugeninterviews allein die Transkriptionen des gesprochenen Wortes und damit die Inhalte der Erzählung berücksichtigt. Wir versuchen nun, indem wir auch die Emotionen erschließen, diese Auswertung um eine zentrale Komponente zu erweitern und so vielfältige Aspekte von erzählter Geschichte zu berücksichtigen.
Die audiovisuellen Zeitzeugeninterview-Bestände, die von der KI-Software analysiert und aufbereitet werden sollen, sind zum Großteil bereits auf dem Zeitzeugen-Portal, einer zentralen Interviewsammlung zur deutschen Geschichte, zu finden. Allein auf der Seite www.zeitzeugen-portal.de befinden sich über 8.000 Clips aus über 1.000 Interviews. Die KI-Software soll als Tool dabei unterstützen, in diesen großen Datenmengen Emotionen sichtbar zu machen.
Wie erkennt die KI-basierte Software Emotionen?
Unsere maschinelle Emotionserkennung orientiert sich an der menschlichen Dekodierungskompetenz von Emotionen. Diese findet auf mehreren Ebenen statt, indem über das Gesagte hinaus auch Stimme, Mimik, Gestik und körperliche Reaktionen (Biosignale) einbezogen werden. Übertragen auf die Entwicklung einer KI-Software bedeutet dies, dass wir nicht nur auf die, im Kontext der Emotionserkennung sehr häufig verwendeten, Gesichtserkennung zurückgreifen, sondern darüber hinaus auch Verfahren aus dem Bereich der Sprach- und Texterkennung anwenden möchten. Es werden also für die drei Modalitäten Bild, Audio und Text künstliche neuronale Netze trainiert. Deren Ergebnisse werden dann in einem weiteren Schritt zusammengeführt. Ganz vereinfacht gesagt, ist das der Prozess des multimodalen Minings. Im besten Fall liefern die einzelnen Modalitäten bei der Emotionserkennung übereinstimmende Ergebnisse und weisen eindeutig auf die gleiche Emotion hin. Es ist jedoch auch möglich, dass beispielsweise im Text „Ärger” erkannt wird und die Gesichtserkennung „Freude” anzeigt, weil die Person im retroperspektiven Gespräch über ein Erlebnis aus der Vergangenheit, über das sie sich geärgert hat, in der Interviewsituation lachen kann. Das System der drei einzelnen neuronalen Netze kann diese Dissonanzen aufdecken und uns auf entsprechende Passagen hinweisen, die es dann gilt, im Einzelnen noch einmal in den Blick zu nehmen.
Ausschlaggebend für die Umsetzung einer funktionierenden KI-Software sind klar definierte Emotionskategorien. Hierfür orientieren wir uns an dem „Goldstandard“ des Affective Computing, den Basisemotionen nach einem evolutionsbiologischen Konzept nach Charles Darwin und späteren Forschungen von Paul Ekman (Basisemotionen: Freude, Ärger, Angst, Trauer, Verachtung/Ekel, Überraschung). Darüber hinaus streben wir auch Tests mit einer maschinellen Sentimentanalyse an, die positive oder negative Meinungspolaritäten in den automatisiert generierten Transkripten der Interviews herausarbeitet.
Technik, Geschichts- und Emotionswissenschaften, Ethik und Recht – viele Arbeitsfelder
Das innovative Forschungsprojekt schlägt eine Brücke zwischen Themenfeldern, die in dieser Form zum ersten Mal im musealen und geschichtswissenschaftlichen Kontext miteinander verknüpft werden. Im Zentrum des Projekts stehen die persönlichen Erfahrungsberichte von Zeitzeug*innen. Aus diesem Grund ist es zentral, dass wir uns auch mit rechtlichen und ethischen Fragestellungen aus dem öffentlichen Diskurs intensiv beschäftigen. Der sensible Umgang mit erzählter Geschichte in Form von videografierten Zeitzeugeninterviews ist neben der technischen, geschichts- sowie emotionswissenschaftlichen Konzeption und Entwicklung des Prototyps ein wichtiges Arbeitsfeld in unserem Forschungsprojekt.
Erzählte Geschichte, Emotionen und Künstliche Intelligenz passen ziemlich gut zusammen!
Alles in allem lässt sich festhalten, dass erzählte Geschichte, Emotionen und Künstliche Intelligenz ziemlich gut zusammenpassen. Die KI-Software soll uns dabei helfen, die Zeitzeugeninterviews auf eine neue Weise zu erschließen und besser zu verstehen, welche Rolle Emotionen beim historischen Erinnern spielen. Das Projekt „Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut“ wird zunächst für zwei Jahre über die Beauftragte der Bundesregierung für Kultur und Medien aus Mitteln der KI-Strategie der Bundesregierung finanziert.
Willy-Brandt-Allee 14
53113 Bonn