Classificazione di video di interazioni sociali: un confronto tra umani e CNN
View/ Open
Author
Vallarino, Guido <1998>
Date
2024-12-17Data available
2024-12-19Abstract
Questa tesi analizza le differenze nelle strategie di attenzione visiva tra esseri umani e una rete neurale convoluzionale (CNN) durante una classificazione di interazioni sociali. La modellizzazione dell’attenzione visiva mira a creare algoritmi che imitino il modo in cui gli umani si concentrano su specifici aspetti di una scena, offrendo prospettive promettenti per migliorare diagnosi e riabilitazione, sviluppando strumenti personalizzati che studino l’impatto dei disturbi sensoriali e cognitivi. È stata compiuto un fine-tuning della CNN scelta, Temporal Shift Module, su un dataset generato con video raffiguranti interazioni sociali tra agenti. Questo dataset è stato anche usato in un esperimento con 28 partecipanti umani, che hanno classificato i video mentre i loro movimenti oculari venivano registrati con un eye-tracker. Le accuratezze e le mappe di salienza dei partecipanti sono state confrontate con le prestazioni e le mappe di attenzione, generate tramite Grad-CAM, della CNN. I risultati hanno mostrato somiglianze nell’accuratezza di classificazione tra umani e CNN, con miglioramenti analoghi al crescere della porzione di video visualizzata. Tuttavia, sono emerse alcune differenze riguardanti le aree di attenzione. Questi risultati incoraggianti evidenziano parallelismi promettenti, ma richiedono ulteriori studi per chiarire i distinti meccanismi di attenzione di esseri umani e modelli di intelligenza artificiale. This thesis examines the differences in visual attention strategies between humans and a Convolutional Neural Network (CNN) during the classification of social interactions in videos. Computational modeling of human visual attention involves creating algorithms that mimic how humans focus on specific aspects of a visual scene. Advancements within this field hold promise for improving clinical assessment and rehabilitation, enabling the development of personalized tools to study the impact of sensory and cognitive disorders on attentional mechanisms. The chosen CNN model, Temporal Shift Module, was fine-tuned and evaluated using a custom video dataset of social interactions between agents. This dataset also served as the basis for an experiment in which 28 human participants classified the videos while their gaze data were recorded. Human accuracies and saliency maps were compared with the CNN performances and Grad-CAM-generated attention maps. Similarities in classification accuracy were observed, as humans and the CNN achieved comparable results, with analogous improvements as larger video portions were shown. However, discrepancies were noted in attention patterns, with differing regions of focus between humans and the CNN. These encouraging findings highlight notable parallels but stress the need for further investigation to elucidate the distinct attention mechanisms of humans and AI models.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [4954]