Show simple item record

dc.contributor.advisorOdone, Francesca <1971>
dc.contributor.advisorNoceti, Nicoletta <1979>
dc.contributor.authorPiccardo, Giovanni <1997>
dc.contributor.otherPaolo Didier Alfano
dc.contributor.otherLorenzo Natale
dc.contributor.otherCarmela Calabrese
dc.date.accessioned2024-12-19T15:13:44Z
dc.date.available2024-12-19T15:13:44Z
dc.date.issued2024-12-17
dc.identifier.urihttps://unire.unige.it/handle/123456789/10626
dc.description.abstractLa crescente integrazione dell'intelligenza artificiale nella vita quotidiana presenta nuove sfide e opportunità per lo sviluppo di sistemi robotici in grado di interagire in modo fluido, proattivo e adattivo nel contesto di interazione uomo-robot (HRI) in tempo reale. Questa tesi, condotta presso l'Istituto Italiano di Tecnologia (IIT), esplora approcci multi-modali per abilitare un comportamento intelligente nei robot sfruttando motori di ragionamento alimentati da grandi modelli linguistici (LLM). Per raggiungere questo obiettivo, abbiamo testato e adottato ActionCLIP, un modello che sfrutta frame di azione abbinati a testo descrittivo per eseguire la classificazione delle azioni, integrando informazioni semantiche derivate dal linguaggio naturale. IIT ha proposto uno scenario di riferimento per verificare l'efficacia di questi approcci definendo un'interazione umanoide-umano, in cui il robot osserva l'umano, guidandolo passo dopo passo per completare un'attività. Abbiamo implementato con successo il modello ActionCLIP in YARP, il framework robotico IIT utilizzato per implementare nuove funzionalità nei propri robot e abbiamo implementato la chiamata di funzione per integrare l'LLM nel framework robotico per consentire al robot di ragionare sui diversi stimoli e allo stesso tempo di eseguire abilità esterne. Questo lavoro dimostra il potenziale della combinazione di LLM con approcci multi-modali per un'interazione robotica efficiente e fluida.it_IT
dc.description.abstractThe increasing integration of artificial intelligence into daily life presents new challenges and opportunities for developing of robotic systems capable of seamlessly, proactively and adaptively human-robot interaction (HRI) in real-time. This thesis, conducted at the Istituto Italiano di Tecnologia (IIT), explores multi-modal approaches to enable intelligent behavior in robots by leveraging reasoning engines powered by large language models (LLMs). To achieve this, we tested and adopted ActionCLIP, a model that leverages action frames paired with descriptive text to perform action classification, integrating semantic information derived from natural language. IIT proposed a reference scenario to verify the effectiveness of these approaches defining a humanoid-human interaction, where the robot observes the human, guiding him step by step to complete a task. We successfully implemented the ActionCLIP model into YARP, the IIT robotic framework used to implement new functionalities in their robots and we implemented function calling to integrate the LLM into the robotic framework to permit the robot to reason over the different stimuli and at the same time to execute external abilities. This work demonstrates the potential of combining LLMs with multi-modal approaches to proficient and seamlessly robotic interaction.en_UK
dc.language.isoen
dc.language.isoit
dc.rightsinfo:eu-repo/semantics/openAccess
dc.titleArchitetture Multi Modali e Modelli Linguistici di Grandi Dimensioni per Task Cooperativi nell'Interazione Uomo-Robotit_IT
dc.title.alternativeMulti Modal Architecture and Large Language Models for Collaborative Tasks into Human-Robot Interactionen_UK
dc.typeinfo:eu-repo/semantics/masterThesis
dc.subject.miurINF/01 - INFORMATICA
dc.subject.miurINF/01 - INFORMATICA
dc.publisher.nameUniversità degli studi di Genova
dc.date.academicyear2023/2024
dc.description.corsolaurea10852 - COMPUTER SCIENCE
dc.description.area7 - SCIENZE MAT.FIS.NAT.
dc.description.department100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record