Show simple item record

dc.contributor.advisorRecchiuto, Carmine Tommaso <1984>
dc.contributor.authorSaberi, Amirmohammad <1999>
dc.date.accessioned2026-01-22T14:12:10Z
dc.date.available2026-01-22T14:12:10Z
dc.date.issued2025-12-18
dc.identifier.urihttps://unire.unige.it/handle/123456789/14538
dc.description.abstractQuesta tesi discute l'identificazione dei parlanti in interazioni di gruppo naturali e frenetiche. Questo è fondamentale per i robot sociali che devono percepire e rivolgersi all'individuo appropriato. Le soluzioni basate solo sul suono falliscono quando molte persone parlano contemporaneamente, c'è rumore di fondo o la voce più forte non è rivolta al robot. Per risolvere questi problemi, si suggerisce un approccio multimodale in tempo reale che integri prove uditive e visive. Dopo aver determinato la probabilità di un parlato utilizzando il segnale del microfono, il metodo misura piccoli movimenti della bocca e posizioni della testa utilizzando immagini dal vivo della telecamera e infine combina i due flussi utilizzando un modello decisionale appreso che migliora con l'apprendimento per rinforzo per migliorare l'interazione con il robot. Python è stato utilizzato per costruire la pipeline su Pepper senza sacrificare il tempo di conversazione naturale. Le prestazioni sono state testate su un benchmark audiovisivo pubblico e su registrazioni di laboratorio con un massimo di cinque persone. Il metodo raccomandato supera una baseline basata solo sul suono nell'identificazione del parlante attivo di quasi il 19%. Dopo sovrapposizioni di parlato e una moderata occlusione visiva, mantiene frame rate interattivi. Utenti reali hanno affermato che i robot dotati di questo sistema girano la testa più velocemente e sono più attenti e socievoli. La tesi migliora i robot conversazionali individuando in modo affidabile e rapido l'interlocutore corrente nei gruppi giornalieri. È inoltre di buon auspicio per la futura ricerca sulla gestualità adattiva, l'alternanza dei turni e il coinvolgimento multilaterale uomo-robot.it_IT
dc.description.abstractThis thesis discusses identifying speakers in natural, fast-paced group interactions. This is crucial for social robots that must perceive and address the proper individual. Sound-only solutions fail when many people talk at once, there’s background noise, or the loudest voice isn’t facing the robot. A real-time multimodal approach that integrates aural and visual evidence is suggested to solve these issues. After determining speech likelihood using the microphone signal, the method measures small mouth movements and head poses using live camera images, and finally combines the two streams using a learned decision model that improves with reinforcement learning to improve robot interaction. Python was used to build the pipeline on Pepper without sacrificing natural conversation time. Performance was tested on a public audio-visual benchmark and lab recordings with up to five persons. The recommended method outperforms a sound-only baseline in identifying the active speaker by almost 19 percent. After speech overlaps and moderate visual occlusion, it maintains interactive frame rates. Real users said robots with the system turn their heads faster and are more attentive and social. The thesis improves conversational robots by reliably and swiftly finding the current speaker in daily groups. It also bodes well for future research on adaptive gesturing, turn-taking, and multiparty humanrobot engagement.en_UK
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/closedAccess
dc.titleIdentifying the Active Speaker in Multiparty Interaction Using Multimodal Analysisit_IT
dc.title.alternativeIdentifying the Active Speaker in Multiparty Interaction Using Multimodal Analysisen_UK
dc.typeinfo:eu-repo/semantics/masterThesis
dc.subject.miurING-INF/04 - AUTOMATICA
dc.publisher.nameUniversità degli studi di Genova
dc.date.academicyear2024/2025
dc.description.corsolaurea10635 - ROBOTICS ENGINEERING
dc.description.area9 - INGEGNERIA
dc.description.department100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI


Files in this item

This item appears in the following Collection(s)

Show simple item record