Mostra i principali dati dell'item
Architetture Multi Modali e Modelli Linguistici di Grandi Dimensioni per Task Cooperativi nell'Interazione Uomo-Robot
dc.contributor.advisor | Odone, Francesca <1971> | |
dc.contributor.advisor | Noceti, Nicoletta <1979> | |
dc.contributor.author | Piccardo, Giovanni <1997> | |
dc.contributor.other | Paolo Didier Alfano | |
dc.contributor.other | Lorenzo Natale | |
dc.contributor.other | Carmela Calabrese | |
dc.date.accessioned | 2024-12-19T15:13:44Z | |
dc.date.available | 2024-12-19T15:13:44Z | |
dc.date.issued | 2024-12-17 | |
dc.identifier.uri | https://unire.unige.it/handle/123456789/10626 | |
dc.description.abstract | La crescente integrazione dell'intelligenza artificiale nella vita quotidiana presenta nuove sfide e opportunità per lo sviluppo di sistemi robotici in grado di interagire in modo fluido, proattivo e adattivo nel contesto di interazione uomo-robot (HRI) in tempo reale. Questa tesi, condotta presso l'Istituto Italiano di Tecnologia (IIT), esplora approcci multi-modali per abilitare un comportamento intelligente nei robot sfruttando motori di ragionamento alimentati da grandi modelli linguistici (LLM). Per raggiungere questo obiettivo, abbiamo testato e adottato ActionCLIP, un modello che sfrutta frame di azione abbinati a testo descrittivo per eseguire la classificazione delle azioni, integrando informazioni semantiche derivate dal linguaggio naturale. IIT ha proposto uno scenario di riferimento per verificare l'efficacia di questi approcci definendo un'interazione umanoide-umano, in cui il robot osserva l'umano, guidandolo passo dopo passo per completare un'attività. Abbiamo implementato con successo il modello ActionCLIP in YARP, il framework robotico IIT utilizzato per implementare nuove funzionalità nei propri robot e abbiamo implementato la chiamata di funzione per integrare l'LLM nel framework robotico per consentire al robot di ragionare sui diversi stimoli e allo stesso tempo di eseguire abilità esterne. Questo lavoro dimostra il potenziale della combinazione di LLM con approcci multi-modali per un'interazione robotica efficiente e fluida. | it_IT |
dc.description.abstract | The increasing integration of artificial intelligence into daily life presents new challenges and opportunities for developing of robotic systems capable of seamlessly, proactively and adaptively human-robot interaction (HRI) in real-time. This thesis, conducted at the Istituto Italiano di Tecnologia (IIT), explores multi-modal approaches to enable intelligent behavior in robots by leveraging reasoning engines powered by large language models (LLMs). To achieve this, we tested and adopted ActionCLIP, a model that leverages action frames paired with descriptive text to perform action classification, integrating semantic information derived from natural language. IIT proposed a reference scenario to verify the effectiveness of these approaches defining a humanoid-human interaction, where the robot observes the human, guiding him step by step to complete a task. We successfully implemented the ActionCLIP model into YARP, the IIT robotic framework used to implement new functionalities in their robots and we implemented function calling to integrate the LLM into the robotic framework to permit the robot to reason over the different stimuli and at the same time to execute external abilities. This work demonstrates the potential of combining LLMs with multi-modal approaches to proficient and seamlessly robotic interaction. | en_UK |
dc.language.iso | en | |
dc.language.iso | it | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.title | Architetture Multi Modali e Modelli Linguistici di Grandi Dimensioni per Task Cooperativi nell'Interazione Uomo-Robot | it_IT |
dc.title.alternative | Multi Modal Architecture and Large Language Models for Collaborative Tasks into Human-Robot Interaction | en_UK |
dc.type | info:eu-repo/semantics/masterThesis | |
dc.subject.miur | INF/01 - INFORMATICA | |
dc.subject.miur | INF/01 - INFORMATICA | |
dc.publisher.name | Università degli studi di Genova | |
dc.date.academicyear | 2023/2024 | |
dc.description.corsolaurea | 10852 - COMPUTER SCIENCE | |
dc.description.area | 7 - SCIENZE MAT.FIS.NAT. | |
dc.description.department | 100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI |
Files in questo item
Questo item appare nelle seguenti collezioni
-
Laurea Magistrale [4954]