Keypoints Extraction and Description with Event Cameras

Cappellini, Matteo <2000>

View/Open

tesi32440764.pdf (20.21Mb)

Author

Cappellini, Matteo <2000>

Date

2025-03-24

Data available

2025-04-03

Abstract

L'estrazione e la descrizione dei punti chiave è un compito cruciale nella visione artificiale, consentendo applicazioni come feature matching, riconoscimento di oggetti e motion tracking . I metodi tradizionali, progettati per telecamere tradizionali, faticano ad adattarsi alla natura asincrona e sparsa delle telecamere ad eventi. A differenza delle telecamere convenzionali, le telecamere ad eventi operano con un'elevata risoluzione temporale e una bassa latenza, rilevando solo i cambiamenti di luminosità a livello di pixel. Questa caratteristica le rende particolarmente adatte ad ambienti dinamici e ad alta velocità, ma presenta sfide nella fase di estrazione e nella corrispondenza delle feature. Questa tesi propone una pipeline per l'estrazione e la descrizione dei punti chiave progettata per le telecamere ad eventi. Sfruttando la rappresentazione SCARF, che preserva le caratteristiche invariate rispetto alla velocità, abbiamo adattato la rete neurale SuperPoint per elaborare gli eventi. I punti chiave e i descrittori estratti vengono poi valutati attraverso una pipeline di feature matching basata su SuperGlue, consentendo un confronto diretto con i metodi convenzionali RGB. Per validare l'approccio proposto, sono stati condotti esperimenti approfonditi sul dataset DSEC. Le osservazioni evidenziano la capacità del metodo di estrarre punti chiave robusti e descrittori affidabili, ma anche le sfide legate alla distintività dei descrittori, dovute alla natura sparsa degli eventi. Lo studio sottolinea inoltre l'importanza della fase di fine-tuning delle reti di estrazione dei punti chiave per la visione basata su eventi, al fine di migliorarne l'adattabilità e la robustezza. Introducendo un framework strutturato per l'estrazione dei punti chiave nelle telecamere ad eventi in modo efficiente, questo lavoro pone le basi per ulteriori sviluppi nella percezione basata su eventi, con applicazioni in robotica, SLAM e rilevamento e tracciamento di oggetti.

Keypoint extraction and description is a crucial task in computer vision, enabling downstream applications such as feature matching, object recognition, and motion tracking. Traditional methods, designed for frame-based cameras, struggle to adapt to the asynchronous and sparse nature of event cameras. Unlike conventional cameras, event cameras operate with high temporal resolution and low latency, detecting only brightness changes at the pixel level. This characteristic makes them highly suitable for high-speed and dynamic environments, but presents challenges in feature extraction and matching. This thesis proposes a keypoint extraction and description pipeline tailored for event cameras. By leveraging the SCARF event representation, which preserves speed-invariant features, we adapt the SuperPoint neural network to process event-based data. The extracted keypoints and descriptors are then evaluated through a feature matching pipeline using SuperGlue, allowing for direct comparison with conventional RGB-based methods. To validate the proposed approach, extensive experiments have been conducted on the DSEC dataset. Observations highlight the ability of the proposed method to extract robust keypoints and reliable descriptors, while also identifying challenges in descriptor distinctiveness due to the sparse nature of event data. The study further underscores the importance of fine-tuning feature extraction networks for event-based vision, to enhance their adaptability and robustness. By introducing a structured and efficient keypoint extraction framework for event cameras, this work lays the foundations for further advancements in event-based perception, with applications in real-time robotics, SLAM, and feature-based object detection and tracking.

Type

info:eu-repo/semantics/masterThesis