Apprendimento Multi-Modale Auto-Supervisionato per l'Analisi delle Immagini Mediche.

Altufayli, Ibrahim <1996>

dc.contributor.advisor	Pastore, Vito Paolo <1989>
dc.contributor.advisor	Verri, Alessandro <1960>
dc.contributor.author	Altufayli, Ibrahim <1996>
dc.contributor.other	Vittorio Murino
dc.date.accessioned	2025-04-03T14:19:27Z
dc.date.available	2025-04-03T14:19:27Z
dc.date.issued	2025-03-26
dc.identifier.uri	https://unire.unige.it/handle/123456789/11815
dc.description.abstract	La radiografia toracica (CXR) è fondamentale per la diagnosi di malattie potenzialmente letali, ma la crescente domanda supera la disponibilità di specialisti. Sebbene i modelli di deep learning raggiungano prestazioni a livello esperto, dipendono da grandi dataset etichettati, il cui reperimento è costoso in ambito medico. I progressi nell'apprendimento auto-supervisionato, in particolare nei modelli contrastivi visione-linguaggio come CLIP, sfruttano la supervisione testuale per un pretraining efficiente, abilitando la classificazione zero-shot. In questa tesi, proponiamo un’ottimizzazione del pretraining di CLIP per l'interpretazione delle CXR, riducendo i costi computazionali e migliorando l’efficienza. Il nostro approccio pre-addestra CLIP su immagini radiografiche e referti clinici, introducendo una loss contrastiva pesata per mitigare l'impatto dei falsi negativi nell'apprendimento contrastivo e un pretraining efficiente con LoRA per ridurre il consumo di memoria e calcolo. Valutiamo il nostro metodo su due dataset annotati da radiologi, testandone la robustezza rispetto a variazioni distributive e patologie non viste. Il nostro approccio supera il pretraining standard di CLIP, eguaglia modelli a livello esperto e offre prestazioni comparabili a un modello più profondo addestrato su dataset più ampi. Inoltre, la nostra strategia è indipendente dal dominio, rendendola applicabile oltre l’imaging medico.	it_IT
dc.description.abstract	Chest radiography (CXR) is crucial for diagnosing life-threatening diseases, but the increasing demand surpasses expert availability. While deep learning models achieve expert-level performance, they rely on large labelled datasets, which are costly to obtain in the medical domain. Advances in self-supervised representation learning, particularly contrastive vision-language models like CLIP, leverage natural language supervision to enable label-efficient pretraining for zero-shot classification. In this thesis, we propose an optimized CLIP pretraining pipeline for chest X-ray interpretation, reducing computational costs while enhancing efficiency. Our approach pretrains CLIP on chest X-rays and their clinical reports, introducing two modifications: a weighted contrastive loss to mitigate false negatives impact in contrastive learning, preventing suboptimal representation learning, and parameter-efficient pretraining using LoRA to reduce memory and computation requirements. We evaluate our method on two radiologist-labeled datasets across four pathology groups, assessing its robustness to distribution shifts and unseen pathologies. Our approach outperforms standard CLIP pretraining, matches an expert-level model, and performs comparably to a deeper vision-language model trained on significantly larger datasets. Additionally, our weighted contrastive loss and LoRA-based adaptation are domain-agnostic, making them applicable beyond medical imaging. These findings highlight the potential of effective, label-free, and parameter-efficient pretraining for advancing medical image analysis.	en_UK
dc.language.iso	en
dc.language.iso	en
dc.rights	info:eu-repo/semantics/openAccess
dc.title	Apprendimento Multi-Modale Auto-Supervisionato per l'Analisi delle Immagini Mediche.	it_IT
dc.title.alternative	Self-Supervised Multi-Modal Learning for Medical Image Analysis.	en_UK
dc.type	info:eu-repo/semantics/masterThesis
dc.subject.miur	INF/01 - INFORMATICA
dc.subject.miur	INF/01 - INFORMATICA
dc.subject.miur	INF/01 - INFORMATICA
dc.publisher.name	Università degli studi di Genova
dc.date.academicyear	2023/2024
dc.description.corsolaurea	10852 - COMPUTER SCIENCE
dc.description.area	7 - SCIENZE MAT.FIS.NAT.
dc.description.department	100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI

Files in questo item

Nome:: tesi32421736.pdf
Dimensione:: 3.760Mb
Formato:: PDF

Mostra/Apri

Questo item appare nelle seguenti collezioni

Laurea Magistrale [6789]

Mostra i principali dati dell'item