Apprendimento Multi-Modale Auto-Supervisionato per l'Analisi delle Immagini Mediche.

View/ Open
Author
Altufayli, Ibrahim <1996>
Date
2025-03-26Data available
2025-04-03Abstract
La radiografia toracica (CXR) è fondamentale per la diagnosi di malattie potenzialmente letali, ma la crescente domanda supera la disponibilità di specialisti. Sebbene i modelli di deep learning raggiungano prestazioni a livello esperto, dipendono da grandi dataset etichettati, il cui reperimento è costoso in ambito medico. I progressi nell'apprendimento auto-supervisionato, in particolare nei modelli contrastivi visione-linguaggio come CLIP, sfruttano la supervisione testuale per un pretraining efficiente, abilitando la classificazione zero-shot. In questa tesi, proponiamo un’ottimizzazione del pretraining di CLIP per l'interpretazione delle CXR, riducendo i costi computazionali e migliorando l’efficienza. Il nostro approccio pre-addestra CLIP su immagini radiografiche e referti clinici, introducendo una loss contrastiva pesata per mitigare l'impatto dei falsi negativi nell'apprendimento contrastivo e un pretraining efficiente con LoRA per ridurre il consumo di memoria e calcolo. Valutiamo il nostro metodo su due dataset annotati da radiologi, testandone la robustezza rispetto a variazioni distributive e patologie non viste. Il nostro approccio supera il pretraining standard di CLIP, eguaglia modelli a livello esperto e offre prestazioni comparabili a un modello più profondo addestrato su dataset più ampi. Inoltre, la nostra strategia è indipendente dal dominio, rendendola applicabile oltre l’imaging medico. Chest radiography (CXR) is crucial for diagnosing life-threatening diseases, but the increasing demand surpasses expert availability. While deep learning models achieve expert-level performance, they rely on large labelled datasets, which are costly to obtain in the medical domain. Advances in self-supervised representation learning, particularly contrastive vision-language models like CLIP, leverage natural language supervision to enable label-efficient pretraining for zero-shot classification. In this thesis, we propose an optimized CLIP pretraining pipeline for chest X-ray interpretation, reducing computational costs while enhancing efficiency. Our approach pretrains CLIP on chest X-rays and their clinical reports, introducing two modifications: a weighted contrastive loss to mitigate false negatives impact in contrastive learning, preventing suboptimal representation learning, and parameter-efficient pretraining using LoRA to reduce memory and computation requirements. We evaluate our method on two radiologist-labeled datasets across four pathology groups, assessing its robustness to distribution shifts and unseen pathologies. Our approach outperforms standard CLIP pretraining, matches an expert-level model, and performs comparably to a deeper vision-language model trained on significantly larger datasets. Additionally, our weighted contrastive loss and LoRA-based adaptation are domain-agnostic, making them applicable beyond medical imaging. These findings highlight the potential of effective, label-free, and parameter-efficient pretraining for advancing medical image analysis.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [5638]