6D Object Pose Tracking using Deep Features
View/ Open
Author
Tomat, Federico <1996>
Date
2020-10-27Data available
2020-11-05Abstract
Il tracking della posa 6D di oggetti dai video fornisce informazioni dettagliate al robot, utili per svolgere task quali manipolazione e navigazione. Le tecniche di Particle Filtering e di inferenza Bayesiana forniscono una solida struttura teorica per risolvere questo problema complesso sfruttando la potenza delle funzionalità della visione artificiale o delle deep networks. In questa tesi, il metodo proposto in PoseRBPF è stato adottato, implementato e migliorato. Il metodo funziona su input RGB e integra i risultati recenti sull'apprendimento di caratteristiche discriminanti per la stima della posa degli oggetti 6D con approcci di Filtering più classici. In particolare, questo framework introduce un approccio basato su un Particle Filter per stimare le probabilità a posteriori delle pose 6D. Ciò si ottiene fattorizzando traslazione 3D e nella rotazione 3D dell'oggetto utilizzando un Rao-Blackwellized Particle Filter. Per ottenere stime accurate e prestazioni in real time, la rotazione 3D viene discretizzata e un codebook viene calcolato sui vettori latenti per tutte le rotazioni discretizzate. I vettori latenti sono calcolati con una rete Auto-Encoder, addestrata a ricostruire l'intero oggetto anche in presenza di significative trasformazioni, occlusioni, possibilità di luce. L'implementazione sviluppata con questo lavoro sfrutta la GPU per permettere di tracciare diversi oggetti, anche in caso di occlusioni parziali e complete, fornendo un buon frame rate. Il lavoro proposto è stato testato sul set di dati YCB-Video che presenta scene con forti occlusioni e facente parte del BOP Pose Estimation benchmark, il quale permette di confrontare il metodo con altri allo stato dell'arte. I risultati riportati in questa tesi in particolare mostrano miglioramenti rispetto al metodo originale, in termini di accuratezza rispetto ai cambi di scala, che sono stati ottenuti modificando il training per l'Augmented AE. Questa tesi è stata sviluppata in collaborazione con IIT. Tracking 6D poses of objects from videos provides rich information to a robot in performing different tasks such as manipulation and navigation. Particle Filtering and Bayesian techniques provide a sound theoretical framework to solve this complex problem by leveraging the power of features from Computer Vision or from Deep Neural Networks. In this thesis, the method proposed in PoseRBPF was adopted, implemented and improved. The method works on RGB input and integrates recent results on learning discriminative features for 6D object pose estimation with more classical filtering approaches. In particular, this framework introduces a Particle Filter-based approach to estimate full posteriors over 6D object poses. This is achieved by factorizing the posterior probabilities into the 3D translation and the 3D rotation of the object using a Rao-Blackwellized Particle Filter. To obtain accurate estimates and real-time performance, the 3D rotation is discretized and a codebook is computed over the embeddings for all the discretized rotations. The embeddings are computed with an Auto-Encoder network, trained to reconstruct the full object even in the presence of significant transformations, occlusions, light chances. The implementation developed with this work exploits the GPU to allow to track different objects, also in case of partial and complete occlusions, providing acceptable frame rates. The proposed work has been tested on the YCB-Video dataset, a state-of-the-art benchmark featuring strong object occlusions, and compared with the other methods tested on the BOP Pose Estimation Benchmark. The results reported in this thesis in particular show improvements over the original method, in terms of accuracy with respect to scale changes, that were obtained by modifying the training approach for the adopted Augmented Auto-Encoder. This thesis has been developed in collaboration with IIT in the department of HSP.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [4853]