Università di Genova logo, link al sitoUniRe logo, link alla pagina iniziale
    • English
    • italiano
  • English 
    • English
    • italiano
  • Login
View Item 
  •   DSpace Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • View Item
  •   DSpace Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Architetture Multi Modali e Modelli Linguistici di Grandi Dimensioni per Task Cooperativi nell'Interazione Uomo-Robot

Thumbnail
View/Open
tesi31530649.pdf (15.41Mb)
Author
Piccardo, Giovanni <1997>
Date
2024-12-17
Data available
2024-12-19
Abstract
La crescente integrazione dell'intelligenza artificiale nella vita quotidiana presenta nuove sfide e opportunità per lo sviluppo di sistemi robotici in grado di interagire in modo fluido, proattivo e adattivo nel contesto di interazione uomo-robot (HRI) in tempo reale. Questa tesi, condotta presso l'Istituto Italiano di Tecnologia (IIT), esplora approcci multi-modali per abilitare un comportamento intelligente nei robot sfruttando motori di ragionamento alimentati da grandi modelli linguistici (LLM). Per raggiungere questo obiettivo, abbiamo testato e adottato ActionCLIP, un modello che sfrutta frame di azione abbinati a testo descrittivo per eseguire la classificazione delle azioni, integrando informazioni semantiche derivate dal linguaggio naturale. IIT ha proposto uno scenario di riferimento per verificare l'efficacia di questi approcci definendo un'interazione umanoide-umano, in cui il robot osserva l'umano, guidandolo passo dopo passo per completare un'attività. Abbiamo implementato con successo il modello ActionCLIP in YARP, il framework robotico IIT utilizzato per implementare nuove funzionalità nei propri robot e abbiamo implementato la chiamata di funzione per integrare l'LLM nel framework robotico per consentire al robot di ragionare sui diversi stimoli e allo stesso tempo di eseguire abilità esterne. Questo lavoro dimostra il potenziale della combinazione di LLM con approcci multi-modali per un'interazione robotica efficiente e fluida.
 
The increasing integration of artificial intelligence into daily life presents new challenges and opportunities for developing of robotic systems capable of seamlessly, proactively and adaptively human-robot interaction (HRI) in real-time. This thesis, conducted at the Istituto Italiano di Tecnologia (IIT), explores multi-modal approaches to enable intelligent behavior in robots by leveraging reasoning engines powered by large language models (LLMs). To achieve this, we tested and adopted ActionCLIP, a model that leverages action frames paired with descriptive text to perform action classification, integrating semantic information derived from natural language. IIT proposed a reference scenario to verify the effectiveness of these approaches defining a humanoid-human interaction, where the robot observes the human, guiding him step by step to complete a task. We successfully implemented the ActionCLIP model into YARP, the IIT robotic framework used to implement new functionalities in their robots and we implemented function calling to integrate the LLM into the robotic framework to permit the robot to reason over the different stimuli and at the same time to execute external abilities. This work demonstrates the potential of combining LLMs with multi-modal approaches to proficient and seamlessly robotic interaction.
 
Type
info:eu-repo/semantics/masterThesis
Collections
  • Laurea Magistrale [5671]
URI
https://unire.unige.it/handle/123456789/10626
Metadata
Show full item record

UniRe - Università degli studi di Genova | Contact Us
 

 

All of DSpaceCommunities & Collections

My Account

Login

UniRe - Università degli studi di Genova | Contact Us