Früher war mehr Lametta … oder Künstliche Intelligenz im Museum

7. Mai 2021 | Günter Marnau

Im Archäologischen Museum Hamburg und Stadtmuseum Harburg (AMH) liegt ein Schatz an Fotografien, über denen der Wandel des Stadtbildes von der Mitte des 19. Jahrhunderts bis heute nachvollzogen werden könnte. „Könnte“ weil die schiere Menge der Fotografien eine manuelle Erschließung nahezu unmöglich macht. Das AMH hat bisher ca. 350.000 Negative und Dias scannen lassen, um sich vor dem zufälligen Verlust dieses Schatzes zu schützen. Die nun digital vorliegenden Fotografien (jetzt „Digitalisate“) lagert das AMH in den Archiven von Dataport und fragte bei uns nach einer Lösung, die inhaltliche Erschließung der Abbildungen auf den Digitalisaten durch eine automatisierte Zuordnung von Attributen zu unterstützen. Damit soll das Ziel, die Digitalisate auch für die Vermittlung gegenüber dem Publikum zu nutzen erreicht werden. Für die Vermittlung wird zukünftig ein Portal im Internet eingesetzt, das in Zusammenarbeit mit der Verbundzentrale des Gemeinsamen Bibliothekverbundes in Niedersachsen (VZG) aufgebaut wird.Dazwischen fehlten jedoch zwei wichtige Bausteine: das Personal zur inhaltlichen Erschließung der Digitalisate sowie ausreichend Zeit, um Ergebnisse in naher Zukunft präsentieren zu können. Diese Lücke konnte nicht durch Geld geschlossen werden. So entstand die Idee, mit dem Einsatz von Software aus dem Bereich „künstliche Intelligenz“ (KI) die Erschließung zu unterstützen.

Gescannt und digitalisiert! Aber was genau?

Intelligenz in Software verpackt, genießt im Grundsatz einen guten Ruf; Schach und Go spielen fast nur noch Computer gegeneinander. Der Mensch scheint nicht mehr mit kreativer Intelligenz überzeugen zu können. Es stand also die Frage im Raum: „Bringt die Intelligenz der Software auch bei historischen Fotografien brauchbare Ergebnisse?“. Dann könnte die oben genannte „Lücke“ durch den Einsatz von Software verkleinert oder sogar geschlossen werden.
Wie sind wir vorgegangen, um uns dieser Frage und ihrer Beantwortung zu nähern? Aus den im Datenarchiv liegenden Digitalisaten wurde eine Teilmenge isoliert - historische Fotos, schwarz-weiß, von einem Fotografen und aus einer Stadt. Für die Erschließung stand keine Standard-Software zur Verfügung. Eine Sichtung des Marktes ergab jedoch Produkte, die im Grundsatz mit der gewählten Teilmenge an Digitalisaten umgehen konnten. Mit dem AMH als Initiatorin wurde besprochen, welche Ziele mindestens erreicht werden müssen, um mit den gefundenen Produkten ein zufriedenstellendes Ergebnis zu erlangen. Hier liegt bereits eine Besonderheit der KI: Nicht-KI-Software enthält Funktionalitäten, die Anforderungen von Nutzenden erfüllen oder eben nicht. KI-Software muss lernen und trainiert werden, um ein optimales Ergebnis (= Die Ziele der Nutzenden) zu erreichen oder in dessen Nähe zu kommen. In Gesprächen mit weiteren Museen wurden deren Ziele mit abgefragt und daraus ergaben sich folgende wichtige Punkte:

  • Effizienz
  • Effektivität
  • Erweiterbarkeit
  • Vertrauen

Besonders im Verhältnis zu sonstigen Software-Produkten ist bei der KI der Punkt „Vertrauen“. KI lernt, bewertet und produziert Ergebnisse, die sich einer einfachen Nachprüfbarkeit entziehen. Deshalb wurde dieser Punkt bei der Entwicklung eines Prototyps extra betont.

Im Rahmen eines über mehrere Monate laufenden Projektes wurde überprüft, inwieweit die ausgewählten Lösungen diese Punkte möglichst gut erreichen können. Schnell wurde deutlich, dass „Effizienz“ und „Effektivität“ Auswirkungen auf Zeit und Geld haben. Je näher diese Kategorien einem Erfüllungsgrad von 100% kommen sollen, desto mehr Aufwand muss in die Rechenkapazität gesteckt werden.  Damit wird der Wunsch, einen Erfüllungsgrad von 100 Prozent zu erreichen eine wirtschaftliche Herausforderung, die von Kultureinrichtungen nicht getragen werden kann. Die Balance zwischen einem möglichst vollständigen Ergebnis und einem tragbaren wirtschaftlichen Aufwand muss in der Diskussion zwischen Museum und Dienstleister anhand der erreichten Ergebnisse gefunden werden (in der Betriebswirtschaftslehre etwa der Begriff „Grenzwertnutzen“).

„Erweiterbarkeit“ war dagegen kein technisches und kein wirtschaftliches Problem, diesen Aspekt unterstützen alle Produkte. Der Aufwand liegt hier überwiegend in der Bereitstellung von Trainingsdaten (hier Bilder mit gekennzeichneten Objekten, die erkannt werden sollen), ein nahezu unerschöpfliches Reservoir liegt im Internet.
Diese einfache Verfügbarkeit führte zu einer wesentlichen Erkenntnis bei dem Ziel „Vertrauen“, wie weiter unten im Text dargestellt werden wird.

Ergebnisse liegen vor! Ziel erreicht?

Zunächst wurden einige Testreihen mit auf Basis von Forschungsdaten vortrainierten Neuronalen Netzen durchgeführt. Als Bewertungsgröße wurden die „Effizienz“ (also das korrekte Erkennen der tatsächlich auf den Digitalisaten abgebildeten Objekte) und die „Fake Rate“ (die Rate, mit der „falsche“ Objekte pro Bild erkannt werden) gewählt. Dabei stellte sich als eine Schwierigkeit heraus, dass in Alltagsbildern Objekte häufig im Hintergrund auftreten, also eher „versteckt“ sind, im Gegensatz zu Bildern, die gezielt für genau ein Objekt erstellt wurden und dann zum Training des Netzes benutzt wurden.  Stichproben durch manuelle Kontrolle zeigten dem Projektteam, dass häufig Objekte als etwas klassifiziert wurden, was sie gar nicht waren. Personenkraftwagen wurden schon mal gerne als Lastkraftwagen identifiziert und umgekehrt. Das Team analysierte die den eingesetzten vortrainierten Modellen zugrundeliegenden Trainingsdaten und stellte fest, dass hier zum Teil erhebliche Qualitätsmängel vorlagen. Bei der Erstellung von Trainingsdaten für die Klassifizierung wurde offensichtlich nicht immer mit der notwendigen Sorgfalt gearbeitet.

Sorgfalt erhöht die Qualität! Oder bedarf es noch mehr?

Diese Erkenntnisse auf dem Weg zu einer bestmöglichen Erkennungsgüte führten zu einer Handreichung, die Hinweise für die Erstellung von eigenen Trainingsdaten enthält Diese und der Prozess, gute Modelle damit zu trainieren war damit beschrieben und zeigt den zukünftigen Nutzenden der zu entwickelnden Lösung einen Weg zu einem guten Ergebnis.
Der Weg war gut beschrieben und wurde am Beispiel „Weihnachtsbaum“ ausprobiert. Die Modelle sollten in der Lage sein, auf den Digitalisaten so etwas wie Familienfeiern zu erkennen, unter anderem „Weihnachten“. Da Maschinen keinen Kontext erkennen können, wurde der Umweg gewählt, auf den Digitalisaten das Objekt „Weihnachtsbaum“ als Indikator zu erkennen. Eine große Menge an Abbildungen von Weihnachtsbäumen wurde beschafft und diese als Objekt gekennzeichnet.

Das Ergebnis erreichte zunächst jedoch nicht alle gesetzten Ziele. Es wurden zu wenige Weihnachtsbäume erkannt und die „Fake-Rate“ war viel zu hoch. Bei der Analyse des Ergebnisses wurde erkannt, dass künstliche Intelligenz eben doch strohdumm ist, keinen Kontext erkennt, also Trainingsdaten auch den Bezug zu dem Zeitraum haben müssen, der über die Objektdaten abgedeckt wird. „Früher war mehr Lametta“ ist eine Tatsache und die musste beim Training berücksichtigt werden. Schon stimmten die Ergebnisse, Trainingsbilder, die keine bunten Weihnachtsbäume mit Kugeln enthielten, sondern Lametta und kleine Vögel im Baum führten zum Ziel.

Ziel erreicht! Geht es nun weiter?

Mit dem Bewusstsein für den zeitlichen Kontext beim Training konnten die Ziele „Effizienz“ und „Fake-Rate“ nun in einem Maße erreicht werden, dass vom Museum die weitere Entwicklung gewünscht wird. Bei der nun anstehenden Forschungsarbeit, um aus dem ersten Versuch ein Produkt zu entwickeln, dass für möglichst viele Kultureinrichtungen von Nutzen ist, sollen im nächsten Schritt die Anforderungen beschrieben werden. Aus den Gesprächen während des Vorhabens haben sich schon Erweiterungswünsche ergeben, die in die Diskussion über die weitere Entwicklung einfließen sollen:

  • Gesichtserkennung
  • Titelgenerierung
  • Gebäudeerkennung
  • Zeitliche Einordnung
  • Landmarken erkennen
  • Veranstaltungen klassifizieren
  • Vereine/Mannschaften erkennen
  • Schiffe erkennen/zuordnen
  • Automatisches Aussortieren

Im Projektverlauf entstandene Bilder:

Anforderungen an ein normbasiertes Vokabular, hier die korrekte Unterscheidung „Kind / Person“ zu „Teddy / Spielzeugfigur“ | © Slg. G. Beier, Stadtmuseum Harburg; Bearbeitung: Dataport
Beispiele für Trainingsdaten, die auch Extreme berücksichtigen müssen. | © Slg. G. Beier, Stadtmuseum Harburg; Bearbeitung: Dataport
Beispiele für Trainingsdaten, Alltagsbilder haben das Gesuchte nicht immer im Mittelpunkt. | © Slg. G. Beier, Stadtmuseum Harburg; Bearbeitung: Dataport
Fake-Rate in Abhängigkeit der Effizienz der Klasse „christmas tree“ für verschiedene Trainings. Auf der x-Achse ist die Effizienz gezeigt, also die Rate, mit der die wahren Objekte identifiziert werden. Auf der y-Achse ist die Fake-Rate gezeigt, also der Anteil der falsch identifizierten Objekte. Diese steigt nach unten hin an. Eine Fake-Rate von 5% bedeutet, dass auf 100 Bildern 5 falsche Objekte gefunden werden. Die Zahlen an den Linien geben den Schnitt auf die „Confidence“ an, also die „Güte“, mit der die Objekte identifiziert werden konnten. | © Dataport
Ein Beitrag von
Günter Marnau
Dataport AöR

Altenholzer Straße 10-14

24161 Altenholz

Business Development | Kultur und Wissenschaft