Modellazione dell'interazione sociale nei video
Mostra/ Apri
Autore
Fatima, Urwa <1996>
Data
2025-12-18Disponibile dal
2025-12-25Abstract
Questo lavoro presenta una pipeline modulare e interpretabile per modellare l’interazione sociale nei video, con particolare attenzione al rilevamento degli eventi di Looking-At-Each-Other (LAEO) e alla quantificazione del livello di coinvolgimento nei piccoli gruppi. Il sistema è progettato per video in cui le persone possono entrare, uscire o muoversi in modo dinamico e in cui il numero dei partecipanti non è noto in anticipo.
La pipeline opera in tre fasi. Per prima cosa, le pose corporee e le tracce delle persone vengono estratte utilizzando YOLO11 combinato con ByteTrack, con una configurazione alternativa basata su MMPose per gestire i casi in cui i modelli di head pose richiedono ambienti separati. In secondo luogo, l’orientamento della testa (yaw, pitch, roll) e la relativa incertezza vengono stimati tramite HHPNet a partire da cinque punti chiave del volto. In terzo luogo, un metodo geometrico adattivo utilizza la head pose, l’incertezza e le posizioni relative delle persone per classificare le interazioni in tre categorie: nessuna interazione, sguardo unidirezionale o LAEO bidirezionale. Due nuovi indici — il Video Engagement Score (VES) e l’Individual Engagement Index (IEI) — riassumono l’andamento delle interazioni nel tempo.
Il sistema è valutato su clip triadiche del CMU Panoptic Studio, su un dataset personalizzato che copre cinque diversi scenari di coinvolgimento e su video conversazionali presi da Pexels. Gli esperimenti mostrano che la pipeline funziona in modo affidabile in scene con due o tre persone e che il cono visivo adattivo migliora la robustezza in presenza di parziali occlusioni o head pose incerte. L’analisi multi-camera evidenzia che i cambi di punto di vista influenzano la classificazione frame-by-frame, ma mantengono coerenti le tendenze generali delle interazioni. Infine, gli indici di coinvolgimento risultano coerenti con l’intuizione umana, catturando sia gli episodi di interazione istantanei sia i ruoli comportamentali più stab This thesis presents a modular and interpretable pipeline for modeling social interaction in videos, with a focus on detecting Looking-At-Each-Other (LAEO) events and quantifying engagement in small groups. The system is designed for videos where people may enter, leave, or move dynamically, and where the number of participants is not known in advance.
The pipeline operates in three stages. First, body keypoints and person tracks are extracted using YOLO11 paired with ByteTrack, with an alternative configuration based on MMPose to handle cases where head-pose models require separate environments. Second, head orientation (yaw, pitch, roll) and its uncertainty are estimated using HHPNet from five face keypoints. Third, an adaptive geometric method uses head pose, uncertainty, and pairwise person positions to classify interactions into non-interaction, unidirectional gaze, or bidirectional LAEO. Two new metrics—the Video Engagement Score (VES) and the Individual Engagement Index (IEI)—summarize interaction patterns over time.
The system is evaluated on triadic interaction clips from the CMU Panoptic Studio, a custom dataset covering five distinct engagement scenarios, and conversational videos from Pexels. Experiments show that the pipeline performs reliably in two-person and three-person scenes and that the adaptive visual cone improves robustness to partial occlusions and uncertain head poses. The multi-camera analysis highlights that viewpoint changes affect fine-grained detection but preserve broad interaction trends. Finally, the engagement metrics align closely with human intuition, capturing both moment-to-moment interaction episodes and higher-level behavioral roles.
Overall, the thesis delivers a complete research tool—ranging from detection to visualization and JSON-based outputs—that supports quantitative and qualitative analysis of social attention in videos and provides a foundation for future multi-modal and graph-based extensions.
Tipo
info:eu-repo/semantics/masterThesisCollezioni
- Laurea Magistrale [6794]

