Utilizzo di detector di oggetti e posa per la localizzazione di eventi di contatto in video

Bouzid, Ilyes <1996>

dc.contributor.advisor	Noceti, Nicoletta <1979>
dc.contributor.advisor	Moro, Matteo <1994>
dc.contributor.advisor	Figari Tomenotti, Federico <1995>
dc.contributor.author	Bouzid, Ilyes <1996>
dc.date.accessioned	2024-04-04T14:19:56Z
dc.date.available	2024-04-04T14:19:56Z
dc.date.issued	2024-03-27
dc.identifier.uri	https://unire.unige.it/handle/123456789/8226
dc.description.abstract	Gli eventi di contatto, le istanze in cui le nostre mani interagiscono con gli oggetti, sono una parte fondamentale di come ci impegniamo con il mondo. Fornisce intuizioni uniche quando viste da una prospettiva egocentrica. Tuttavia, sfide come le occlusioni, i rapidi movimenti della mano che risultano in sfocatura del movimento, e la variabilità nelle condizioni di illuminazione e negli angoli della telecamera complicano la cattura e l’analisi accurata di queste interazioni. Per affrontare queste sfide, abbiamo sviluppato un sistema che rileva questi eventi utilizzando rilevatori di oggetti a mano e analisi temporale. Questo sistema è in grado di fornire la posizione del contatto, il rettangolo di delimitazione dell’oggetto interagente a mano, l’etichetta dell’oggetto, la manualità e il gesto della mano. Il nostro modello è stato messo alla prova su 20 video egocentrici unici, ognuno rappresentante un diverso contesto di cucina. Questo ha comportato circa 85.833 fotogrammi, fornendo una gamma diversificata di scenari e sfide per il nostro modello. Abbiamo valutato il nostro modello in tre modalità: Classificazione Binaria, Rilassata e Rigorosa. In modalità di Classificazione Binaria, il modello ha raggiunto una precisione dell’89% e un richiamo del 66%. In modalità Rilassata, ha raggiunto una precisione dell’88% e un richiamo del 54%. In modalità Rigorosa, ha raggiunto una precisione del 51% e un richiamo del 40%. Nonostante le complessità e le sfide inerenti alla vista egocentrica, il nostro modello ha dimostrato una performance lodevole, in particolare nelle modalità Binaria e Rilassata. Questi risultati promettenti ci ispirano a continuare a perfezionare e migliorare il nostro modello nei lavori futuri. Parole chiave: Eventi di Contatto, Prospettiva Egocentrica, Interazioni Mano-Oggetto, Rilevatori Mano-Oggetto, Analisi Temporale, Contesto Cucina.	it_IT
dc.description.abstract	Contact events, the instances where our hands interact with objects, are a key part of how we engage with the world. It provides unique insights when viewed from an egocentric perspective. However, challenges such as occlusions, rapid hand movements that result in motion blur, and variability in lighting conditions and camera angles complicate the accurate capture and analysis of these interactions. To address these challenges, we have developed a system that detects these events using hand-object detectors and temporal analysis. This system is capable of providing the location of the contact, the bounding box of the interacting hand-object, the label of the object, handedness, and the gesture of the hand. Our model was put to the test across 20 unique egocentric videos, each representing a different kitchen context. This amounted to approximately 85,833 frames, providing a diverse range of scenarios and challenges for our model. We evaluated our model in three modes: Binary Classification, Relaxed, and Rigorous. In Binary Classification Mode, the model achieved a precision of 89% and a recall of 66%. In Relaxed Mode, it achieved a precision of 88% and a recall of 54%. In Rigorous Mode, it achieved a precision of 51% and a recall of 40%. Despite the inherent complexities and challenges of the egocentric view, our model demonstrated commendable performance, particularly in the Binary and Relaxed Mode. These promising results inspire us to continue refining and enhancing our model in future work. Keywords: Contact Events, Egocentric Perspective, Hand-Object Interactions, Hand-Object Detectors, Temporal Analysis, Kitchen Context.	en_UK
dc.language.iso	en
dc.rights	info:eu-repo/semantics/restrictedAccess
dc.title	Utilizzo di detector di oggetti e posa per la localizzazione di eventi di contatto in video	it_IT
dc.title.alternative	Using object and pose detectors for localizing contact events in videos	en_UK
dc.type	info:eu-repo/semantics/masterThesis
dc.subject.miur	INF/01 - INFORMATICA
dc.subject.miur	INF/01 - INFORMATICA
dc.publisher.name	Università degli studi di Genova
dc.date.academicyear	2022/2023
dc.description.corsolaurea	10852 - COMPUTER SCIENCE
dc.description.area	7 - SCIENZE MAT.FIS.NAT.
dc.description.department	100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI

Files in questo item

Nome:: tesi27914562.pdf
Dimensione:: 5.001Mb
Formato:: PDF

Mostra/Apri

Questo item appare nelle seguenti collezioni

Laurea Magistrale [6128]

Mostra i principali dati dell'item