Integrazione dello Sguardo nei Vision-Language Models: Verso un Ragionamento Visivo di Tipo Umano

Valentini, Dario <2001>

Mostra/Apri

tesi37257905.pdf (1.934Mb)

Autore

Valentini, Dario <2001>

Data

2026-03-27

Disponibile dal

2026-04-02

Abstract

Questa tesi esplora l'integrazione dei dati sullo sguardo umano allo scopo di potenziare le capacità di comprensione e ragionamento dei modelli Vision-Language (VLM), rendendone l'interpretazione visiva più simile a quella umana. Sebbene vi siano stati notevoli progressi in questo campo, i modelli odierni presentano ancora delle lacune che non riguardano solo i ragionamenti di alto livello, ma anche le funzioni base del riconoscimento visivo. Sono stati raccolti dati di gaze da 30 partecipanti durante lo svolgimento di task di riconoscimento e ragionamento, basati sul dataset di immagini di CogBench, un benchmark per il ragionamento visivo. Al fine di analizzare l'impatto dello sguardo umano sulle prestazioni dei modelli, sono state sviluppate tre diverse strategie di integrazione: (1) la pesatura dei patch embedding visuali basata sullo sguardo, senza necessità di training, per testare l'uso dell'attenzione visiva umana come meccanismo di prior esterno; (2) fine-tuning mirato del proiettore multimodale, in modo da adattare il modello a elaborare rappresentazioni guidate dallo sguardo; (3) la codifica congiunta delle immagini e dei segnali visivi tramite fine-tuning sia dei moduli visivi che di quelli di proiezione. Tali approcci sono stati applicati su diversi VLM open-source e valutati attraverso le metriche cognitive e di riconoscimento proprie di CogBench. I risultati mostrano che la semplice pesatura basata sullo sguardo porta a benefici marginali, mentre le strategie di fine-tuning selettivo generano variazioni di performance che dipendono strettamente dal tipo di metrica analizzata. Confrontando le diverse categorie di ragionamento, emerge inoltre che l'apporto dello sguardo risulta particolarmente vantaggioso in specifici tipi di ragionamento strutturato. Sebbene i movimenti oculari umani offrano preziose indicazioni visive, per poterle sfruttare efficacemente è indispensabile intervenire sull'architettura dei modelli con adattamenti mirati.

This thesis investigates the integration of human gaze information to enhance the visual comprehension and reasoning abilities of Vision-Language Models (VLMs) toward a more human-aligned visual understanding. Despite recent progress, current models exhibit limitations not only in high-level cognitive reasoning but also in fundamental visual recognition. Gaze data was collected from 30 participants performing recognition and reasoning tasks, using the images from CogBench, a visual reasoning benchmark. To study the role of gaze, three integration strategies were proposed: (1) a training-free gaze-based reweighting of visual patch embeddings to evaluate gaze as an external attention prior; (2) selective fine-tuning of the multimodal projector to adapt the model to gaze-modulated representations; and (3) joint embedding of image and gaze signals via parameter-efficient adaptation of visual and projection components. These approaches were implemented on several open-source VLMs, and evaluated using the recognition and cognition metrics defined in CogBench. Results indicate that naive gaze weighting yields limited improvements, whereas selective fine-tuning strategies produce dimension-specific performance variations. Analysis across reasoning categories reveals that gaze provides stronger benefits in certain structured reasoning settings. Overall, these findings highlight that human gaze contains informative visual priors, while its effective integration requires targeted architectural adaptation and careful optimization.

Tipo

info:eu-repo/semantics/masterThesis