Analisi di Immagini Monoculari per la Stima della Posizione di Testa e Spalle
Mostra/ Apri
Autore
Reganova, Elizaveta <2000>
Data
2024-12-17Disponibile dal
2024-12-19Abstract
Sebbene esistano numerosi metodi per prevedere le pose corporee 2D e 3D, pochi permettono di stimare accuratamente l’orientamento della testa e ancor meno affrontano l’orientamento della parte superiore del corpo. Molti di essi si basano su modelli complessi con elevate esigenze computazionali, rendendoli inadatti ai dispositivi edge con risorse limitate. Questa tesi estende i lavori precedenti sull’estimazione dell’orientamento della testa utilizzando HHP-Net, un’architettura di deep learning leggera. HHP-Net predice gli angoli di yaw, pitch e roll, insieme alle relative incertezze, a partire da landmark corporei 2D e punteggi di confidenza estratti da un’unica immagine RGB. La tesi introduce diversi miglioramenti chiave per aumentare l’applicabilità del modello e per esplorarne e comprenderne meglio le prestazioni. In primo luogo, l’efficienza è migliorata integrando MoveNet, un estrattore di punti chiave ottimizzato per dispositivi edge, consentendo previsioni in tempo reale. In secondo luogo, l’architettura di HHP-Net è stata adattata per stimare l’orientamento della parte superiore del corpo, avanzando verso una stima generalizzata della posa 6D. Entrambe le reti sono state addestrate sul dataset Pandora. Confronti incrociati completi rivelano risultati chiave: (1) HHP-Net è efficace nel predire l’orientamento delle spalle. (2) MoveNet bilancia velocità e accuratezza, rendendolo adatto alle applicazioni in tempo reale. (3) Le prestazioni della rete dipendono dalla scelta dell’estrattore di punti chiave, evidenziando l’importanza di un’integrazione robusta tra il rilevamento dei punti chiave e la stima della posa. Questi risultati sottolineano il potenziale di HHP-Net per un’estimazione accurata ed efficiente dell’orientamento della testa e delle spalle su dispositivi edge. While many methods exist for predicting 2D and 3D body poses, fewer allow to accurately estimate head orientation, and even fewer address upper body orientation. Many of them rely on complex models with high computational demands, making them unsuitable for resource-constrained edge devices. This thesis extends prior work on head orientation estimation using HHP-Net, a lightweight deep learning architecture. HHP-Net predicts yaw, pitch, and roll angles, along with uncertainties, from 2D body landmarks and confidence scores extracted from a single RGB image. This thesis introduces several key advancements to enhance model’s applicability and to better explore and understand its performance. First, efficiency is improved by integrating MoveNet, an edge-device-oriented keypoint extractor, enabling real-time predictions. Second, HHP-Net’s architecture has been adapted for upper body orientation, advancing toward generalized 6D pose estimation. Both networks were trained on the Pandora dataset. Comprehensive cross-comparisons reveal key insights. (1) HHP-Net is effective for predicting shoulder orientation. (2) MoveNet balances speed and accuracy, making it suitable for real-time applications. (3) The network’s performance depends on the choice of keypoint extractor, emphasizing robust integration between keypoint detection and pose estimation. These findings highlight HHP-Net’s potential for accurate, efficient head and shoulders orientation estimation on edge devices.
Tipo
info:eu-repo/semantics/masterThesisCollezioni
- Laurea Magistrale [4954]