Robot Hen – Integrating gesture annotation into a unified HPC workflow for the automatic analysis of large quantities of multimodal data within the Distributed Little Red Hen Lab

Antragssteller

Dr.Peter Uhrig
Lehrstuhl Anglistik: Linguistik
Department Anglistik/Amerikanistik und Romanistik
FAU Erlangen-Nürnberg

Projektübersicht

Durch das Projekt soll es ermöglicht werden, die Funktion sprachbegleitender Gestik genauer zu untersuchen und Methoden der Big Data Analysis auf diesen Gegenstand anzuwenden. Konkret geht es um die Frage, ob mit bestimmten grammatischen Konstruktionen auch bestimmte Klassen von Gesten assoziiert sind. Die eigentliche wissenschaftliche Problemstellung kann erst im Anschluss an das Projekt untersucht werden, weil bislang die Werkzeuge fehlen, die vorhandenen Daten entsprechend der Fragestellung zu analysieren. Sie soll hier daher nur kurz erläutert werden:

Es gibt in der vorhandenen wissenschaftlichen Literatur Vermutungen dahingehend, dass bestimmte Gesten mit bestimmten abstrakten grammatischem Konstruktionen auftreten, jedoch bleibt bislang unklar, ob es sich dabei eher um Assoziationen mit bestimmten lexikalischen Einheiten (~ „Wörtern“) handelt oder um Assoziationen mit abstrakten grammatikalischen Konstruktionen (sog. Argumentstrukturkonstruktionen im Sinne Goldbergs (1995, 2006)). Da häufig die entsprechenden lexikalischen Einheiten in den dazugehörigen grammatischen Konstruktionen auftreten (z.B. sweep in der caused motionKonstruktion wie in (1)), ist es schwer, diese Faktoren voneinander zu trennen. Einen Ausweg bietet die Analyse kreativer Sprachverwendung, bei der die Argumentstrukturkonstruktion mit neuen lexikalischen Einheiten verwendet wird, wie z.B. mit sneeze in (2).

  • (1) Pat swept the napkin off the table.
  • (2) Pat sneezed the napkin off the table. (Goldberg 1995)

Diese Art von Konstruktion ist jedoch sehr selten und kann nur mit Hilfe des Computers und einer deep grammatical analysis gefunden werden, die in Erlangen bereits in großem Maßstab über das treebank.info-Projekt verfügbar ist. Jedoch kann momentan nicht automatisiert erkannt werden, welche Gestik zu einer bestimmten Zeit (also um die grammatische Konstruktion herum) in einer Videoaufnahme verwendet wird bzw. ob überhaupt Gestik erkennbar ist. Für das beantragte Projekt selbst ist die Problemstellung daher die Entwicklung und Evaluation einer robusten und skalierbaren Pipeline zur automatischen Erkennung von sprachbegleitender Gestik in Videoaufnahmen. Als Datengrundlage dienen dafür Videoaufnahmen in der UCLA Library Broadcast NewsScape, die inzwischen mehr als 10 Jahre Nachrichtensendungen (im weiteren Sinne, d.h. z.B. auch politische Talkshows) umfasst.