2D to 3D Pretraining

View/ Open
Author
Grigoreva, Marina <2000>
Date
2025-03-26Data available
2025-04-03Abstract
L'imaging medico è stato notevolmente influenzato dalla rivoluzione del deep learning nei domini che richiedono l'interpretazione di dati visivi. La disponibilità di dati volumetrici 3D ad alta risoluzione, come quelli richiesti dalla risonanza magnetica (MRI) o dalla tomografia computerizzata (CT), migliora notevolmente la precisione diagnostica. Tuttavia, l'addestramento delle reti neurali su tali dati pone delle sfide computazionali. Le reti neurali completamente 3D richiedono spesso GPU potenti, tempi di addestramento più lunghi e requisiti di memoria più elevati. I ricercatori e i professionisti con risorse limitate potrebbero non essere in grado di raggiungere questo livello di requisiti computazionali a causa dei costi potenzialmente inaccessibili. Questo lavoro esplora un metodo che combina la rappresentazione spaziale dei modelli 3D con l'efficacia delle reti preaddestrate 2D. Proponiamo le convoluzioni assiali-coronali-sagittali (ACS), che utilizzano pesi 2D efficaci per catturare il contesto 3D applicando kernel convoluzionali 2D in modo indipendente lungo tre piani ortogonali. Il nostro metodo facilita l'inizializzazione e la messa a punto di reti 3D basate su pesi 2D pre-addestrati, senza aumentare i costi di calcolo. Medical imaging has been significantly impacted by deep learning's revolution in domains requiring the interpretation of visual data. The availability of high-resolution 3D volumetric data, such as those required for magnetic resonance imaging (MRI) or computed tomography (CT), significantly enhances diagnostic precision. However, there exist computational challenges when training neural networks on such data. Fully 3D neural networks frequently require powerful GPUs, longer training times, and higher memory demands. Researchers and practitioners with limited resources may not be able to reach this degree of computational requirement due to its potentially unaffordable cost. This work explores a method that combines the spatial representation of 3D models with the effectiveness of 2D pre-trained networks. Here we propose the Axial-Coronal-Sagittal (ACS) convolutions, which use effective 2D weights to capture 3D context by applying 2D convolutional kernels independently along three orthogonal planes. Our method makes it easier to initialize and fine-tune 3D networks based on pre-trained 2D weights without raising computing expenses.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [5638]