Mostra i principali dati dell'item

dc.contributor.advisorNoceti, Nicoletta <1979>
dc.contributor.advisorMoro, Matteo <1994>
dc.contributor.authorVallarino, Guido <1998>
dc.contributor.otherLucia Schiatti
dc.date.accessioned2024-12-19T15:13:05Z
dc.date.available2024-12-19T15:13:05Z
dc.date.issued2024-12-17
dc.identifier.urihttps://unire.unige.it/handle/123456789/10620
dc.description.abstractQuesta tesi analizza le differenze nelle strategie di attenzione visiva tra esseri umani e una rete neurale convoluzionale (CNN) durante una classificazione di interazioni sociali. La modellizzazione dell’attenzione visiva mira a creare algoritmi che imitino il modo in cui gli umani si concentrano su specifici aspetti di una scena, offrendo prospettive promettenti per migliorare diagnosi e riabilitazione, sviluppando strumenti personalizzati che studino l’impatto dei disturbi sensoriali e cognitivi. È stata compiuto un fine-tuning della CNN scelta, Temporal Shift Module, su un dataset generato con video raffiguranti interazioni sociali tra agenti. Questo dataset è stato anche usato in un esperimento con 28 partecipanti umani, che hanno classificato i video mentre i loro movimenti oculari venivano registrati con un eye-tracker. Le accuratezze e le mappe di salienza dei partecipanti sono state confrontate con le prestazioni e le mappe di attenzione, generate tramite Grad-CAM, della CNN. I risultati hanno mostrato somiglianze nell’accuratezza di classificazione tra umani e CNN, con miglioramenti analoghi al crescere della porzione di video visualizzata. Tuttavia, sono emerse alcune differenze riguardanti le aree di attenzione. Questi risultati incoraggianti evidenziano parallelismi promettenti, ma richiedono ulteriori studi per chiarire i distinti meccanismi di attenzione di esseri umani e modelli di intelligenza artificiale.it_IT
dc.description.abstractThis thesis examines the differences in visual attention strategies between humans and a Convolutional Neural Network (CNN) during the classification of social interactions in videos. Computational modeling of human visual attention involves creating algorithms that mimic how humans focus on specific aspects of a visual scene. Advancements within this field hold promise for improving clinical assessment and rehabilitation, enabling the development of personalized tools to study the impact of sensory and cognitive disorders on attentional mechanisms. The chosen CNN model, Temporal Shift Module, was fine-tuned and evaluated using a custom video dataset of social interactions between agents. This dataset also served as the basis for an experiment in which 28 human participants classified the videos while their gaze data were recorded. Human accuracies and saliency maps were compared with the CNN performances and Grad-CAM-generated attention maps. Similarities in classification accuracy were observed, as humans and the CNN achieved comparable results, with analogous improvements as larger video portions were shown. However, discrepancies were noted in attention patterns, with differing regions of focus between humans and the CNN. These encouraging findings highlight notable parallels but stress the need for further investigation to elucidate the distinct attention mechanisms of humans and AI models.en_UK
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/restrictedAccess
dc.titleClassificazione di video di interazioni sociali: un confronto tra umani e CNNit_IT
dc.title.alternativeSocial Interaction Video Classification: Human and CNN Comparisonen_UK
dc.typeinfo:eu-repo/semantics/masterThesis
dc.subject.miurINF/01 - INFORMATICA
dc.publisher.nameUniversità degli studi di Genova
dc.date.academicyear2023/2024
dc.description.corsolaurea10852 - COMPUTER SCIENCE
dc.description.area7 - SCIENZE MAT.FIS.NAT.
dc.description.department100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI


Files in questo item

Questo item appare nelle seguenti collezioni

Mostra i principali dati dell'item