Talking Hands – creating HPC processes for improved person and gesture detection and recognition on a large audiovisual dataset

Applicant

Dr. Peter Uhrig
Lehrstuhl Anglistik: Linguistik
Department Anglistik/Amerikanistik und Romanistik
Friedrich-Alexander-Universität Erlangen-Nürnberg

Project Overview

Das Projekt soll die Anwendung neuer KI-Technologien auf große Mengen Fernsehaufnahmen ermöglichen, sowie die systematische Auswertung der dabei anfallenden Datenmengen, um zielgerichtete Forschung zu sprachbegleitender Gestik sowie zu anderen Aspekten multimodaler Kommunikation zu ermöglichen.
Im Projekt Robot Hen und der darauf aufbauenden Habilitationsarbeit (die im ersten Halbjahr 2020 eingereicht werden soll), konnte ich bereits zeigen, dass die linguistische Forschung zu sprachbegleitender Gestik bereits von der Annotation der Daten mit äußerst mittelmäßigen Systemen profitieren kann, die dem/r Forscher/in über ein Web-Interface zur Verfügung gestellt werden (vgl. Uhrig 2018, Uhrig in Vorbereitung).Inzwischen steht mit OpenPose (Wei et al. 2016, Simon et al. 2017, Cao et al. 2017, Cao et al. 2018) ein moderneres Deep Learning System zur Erkennung menschlicher Posen zur Verfügung, das für jedes Bild eines Videos eine Liste mit sogenannten Keypoints (Handgelenk, Ellenbogen, Schulter, Augen, Ohren) für jede erkannte Person liefert. Zusätzlich zum Körper kann OpenPose auch Hände und Gesichter erkennen (wenn auch weniger zuverlässig).

Zwar produziert OpenPose nur Daten für Einzelbilder, seine Anwendbarkeit für die Gestenerkennung konnte aber bereits kürzlich am Max-Planck-Institut für Psycholinguistik in Nijmegen gezeigt werden (Ripperda/Drijvers/Holler 2020). Das dort entwickelte Werkzeug SPUDNIG setzt auf OpenPose auf, ist allerdings als reines GUI-Werkzeug gestaltet und somit nicht unmittelbar im HPC-Bereich nutzbar. Im Rahmen des beantragten Projekts sollen die entsprechenden Erkennungsroutinen aus der Software für den headless-Betrieb angepasst und dann auf OpenPose-Ergebnisse angewandt werden. Da das Werkzeug für die relative sauberen Labordaten des MPI entwickelt wurde, sind voraussichtlich weitere Anpassungen für die vielfältigen Aufnahmesituationen in Fernsehdaten nötig, z.B. Vordergrunderkennung und Filterung von Bildern mit großen Menschengruppen (z.B. applaudierendes Publikum). Parallel wird geprüft, inwiefern sich die Ergebnisse von OpenPose als Features in einem Deep Learning-Modell nutzen lassen, das die zeitliche Abfolge der Geste einbezieht – als geeignete Architektur käme hier Bidirectional Long Short-Term Memory (BLSTM) neuronales Netzwerk in Frage. Ein Trainingsdatensatz mit mehr als 1,000 handannotierten Gesten liegt vor.
Zusätzlich zur Gestenerkennung soll im Rahmen des Projekts die Erkennung von Personen und Bildern im Allgemeinen verbessert werden. Die Arbeit mit den Ergebnissen des Robot Hen Projekts hat gezeigt, dass Ergebnisse oft durch häufig wiederholte Aufnahmen verzerrt werden. Inzwischen kann zwar Werbung recht zuverlässig gefiltert werden, aber bei aktuellen Ereignissen zeigen oft alle Sender die gleichen Bilder und den gleichen Ton. Aus statistischer Sicht ist es darüber hinaus problematisch, wenn die gleiche Person mehrfach in einer Stichprobe auftaucht („repeated measurement“), weswegen zumindest für bestimmte  Untersuchungen kleinerer Datenmengen, eine Gruppierung der Ergebnisse nach Sprecher/in ebenfalls sinnvoll wäre. Zu diesem Zweck soll im Projekt mindestens ein Clustering von Ergebnissen auf Basis zweier Kriterien – eines Vektors von Gesichtsmerkmalen („biometrische Merkmale“) sowie eines Vektors von Bildmerkmalen (relativ klassische Bild-Features, die von einem Deep-Learning-Modell extrahiert werden, vgl. Arbeiten der Visual Geometry Group an der University of Oxford (Simonyan/Zisserman 2015)). Die Ergebnisse solcher Clusterings könnten dann als Trainingsdaten für eine Personenerkennung dienen. Je nach Rechenzeitbedarf könnte eine solche zumindest auf eine Teilmenge der Daten angewandt werden, so dass z.B. Fragestellungen wie die Untersuchung des Idiolekts von Donald Trump oder anderen Personen der Zeitgeschichte ermöglicht werden könnten.