Utilizzo di detector di oggetti e posa per la localizzazione di eventi di contatto in video
View/ Open
Author
Bouzid, Ilyes <1996>
Date
2024-03-27Data available
2024-04-04Abstract
Gli eventi di contatto, le istanze in cui le nostre mani interagiscono con gli oggetti, sono una parte fondamentale di come ci impegniamo con il mondo. Fornisce intuizioni uniche quando viste da una prospettiva egocentrica. Tuttavia, sfide come le occlusioni, i rapidi movimenti della mano che risultano in sfocatura del movimento, e la variabilità nelle condizioni di illuminazione e negli angoli della telecamera complicano la cattura e l’analisi accurata di queste interazioni. Per affrontare queste sfide, abbiamo sviluppato un sistema che rileva questi eventi utilizzando rilevatori di oggetti a mano e analisi temporale. Questo sistema è in grado di fornire la posizione del contatto, il rettangolo di delimitazione dell’oggetto interagente a mano, l’etichetta dell’oggetto, la manualità e il gesto della mano. Il nostro modello è stato messo alla prova su 20 video egocentrici unici, ognuno rappresentante un diverso contesto di cucina. Questo ha comportato circa 85.833 fotogrammi, fornendo una gamma diversificata di scenari e sfide per il nostro modello. Abbiamo valutato il nostro modello in tre modalità: Classificazione Binaria, Rilassata e Rigorosa. In modalità di Classificazione Binaria, il modello ha raggiunto una precisione dell’89% e un richiamo del 66%. In modalità Rilassata, ha raggiunto una precisione dell’88% e un richiamo del 54%. In modalità Rigorosa, ha raggiunto una precisione del 51% e un richiamo del 40%. Nonostante le complessità e le sfide inerenti alla vista egocentrica, il nostro modello ha dimostrato una performance lodevole, in particolare nelle modalità Binaria e Rilassata. Questi risultati promettenti ci ispirano a continuare a perfezionare e migliorare il nostro modello nei lavori futuri.
Parole chiave: Eventi di Contatto, Prospettiva Egocentrica, Interazioni Mano-Oggetto, Rilevatori Mano-Oggetto, Analisi Temporale, Contesto Cucina. Contact events, the instances where our hands interact with objects, are a key part of how we engage with the world. It provides unique insights when viewed from an egocentric perspective. However, challenges such as occlusions, rapid hand movements that result in motion blur, and variability in lighting conditions and camera angles complicate the accurate capture and analysis of these interactions.
To address these challenges, we have developed a system that detects these events using hand-object detectors and temporal analysis. This system is capable of providing the location of the contact, the bounding box of the interacting hand-object, the label of the object, handedness, and the gesture of the hand.
Our model was put to the test across 20 unique egocentric videos, each representing a different kitchen context. This amounted to approximately 85,833 frames, providing a diverse range of scenarios and challenges for our model.
We evaluated our model in three modes: Binary Classification, Relaxed, and Rigorous. In Binary Classification Mode, the model achieved a precision of 89% and a recall of 66%. In Relaxed Mode, it achieved a precision of 88% and a recall of 54%. In Rigorous Mode, it achieved a precision of 51% and a recall of 40%.
Despite the inherent complexities and challenges of the egocentric view, our model demonstrated commendable performance, particularly in the Binary and Relaxed Mode. These promising results inspire us to continue refining and enhancing our model in future work.
Keywords: Contact Events, Egocentric Perspective, Hand-Object Interactions, Hand-Object Detectors, Temporal Analysis, Kitchen Context.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [4954]