Identifying the Active Speaker in Multiparty Interaction Using Multimodal Analysis
Mostra/ Apri
Autore
Saberi, Amirmohammad <1999>
Data
2025-12-18Disponibile dal
2026-01-22Abstract
Questa tesi discute l'identificazione dei parlanti in interazioni di gruppo naturali e frenetiche. Questo è fondamentale per i robot sociali che devono percepire e
rivolgersi all'individuo appropriato. Le soluzioni basate solo sul suono falliscono quando molte
persone parlano contemporaneamente, c'è rumore di fondo o la voce più forte non è
rivolta al robot. Per risolvere questi problemi, si suggerisce un approccio multimodale in tempo reale che integri
prove uditive e visive.
Dopo aver determinato la probabilità di un parlato utilizzando il segnale del microfono, il
metodo misura piccoli movimenti della bocca e posizioni della testa utilizzando immagini
dal vivo della telecamera e infine combina i due flussi utilizzando un modello decisionale
appreso che migliora con l'apprendimento per rinforzo per migliorare
l'interazione con il robot. Python è stato utilizzato per costruire la pipeline su Pepper
senza sacrificare il tempo di conversazione naturale.
Le prestazioni sono state testate su un benchmark audiovisivo pubblico e su registrazioni di laboratorio
con un massimo di cinque persone. Il metodo raccomandato supera una baseline basata solo sul suono nell'identificazione del parlante attivo di
quasi il 19%. Dopo sovrapposizioni di parlato e una moderata occlusione visiva, mantiene frame rate interattivi. Utenti reali hanno affermato che i robot dotati
di questo sistema girano la testa più velocemente e sono più attenti e socievoli.
La tesi migliora i robot conversazionali individuando in modo affidabile e rapido l'interlocutore corrente nei gruppi giornalieri. È inoltre di buon auspicio per la futura
ricerca sulla gestualità adattiva, l'alternanza dei turni e il coinvolgimento multilaterale uomo-robot. This thesis discusses identifying speakers in natural, fast-paced group
interactions. This is crucial for social robots that must perceive and
address the proper individual. Sound-only solutions fail when many
people talk at once, there’s background noise, or the loudest voice isn’t
facing the robot. A real-time multimodal approach that integrates
aural and visual evidence is suggested to solve these issues.
After determining speech likelihood using the microphone signal, the
method measures small mouth movements and head poses using live
camera images, and finally combines the two streams using a learned
decision model that improves with reinforcement learning to improve
robot interaction. Python was used to build the pipeline on Pepper
without sacrificing natural conversation time.
Performance was tested on a public audio-visual benchmark and lab
recordings with up to five persons. The recommended method outperforms a sound-only baseline in identifying the active speaker by
almost 19 percent. After speech overlaps and moderate visual occlusion, it maintains interactive frame rates. Real users said robots with
the system turn their heads faster and are more attentive and social.
The thesis improves conversational robots by reliably and swiftly finding the current speaker in daily groups. It also bodes well for future
research on adaptive gesturing, turn-taking, and multiparty humanrobot engagement.
Tipo
info:eu-repo/semantics/masterThesisCollezioni
- Laurea Magistrale [6793]

