Architetture Multi Modali e Modelli Linguistici di Grandi Dimensioni per Task Cooperativi nell'Interazione Uomo-Robot

Piccardo, Giovanni <1997>

dc.contributor.advisor	Odone, Francesca <1971>
dc.contributor.advisor	Noceti, Nicoletta <1979>
dc.contributor.author	Piccardo, Giovanni <1997>
dc.contributor.other	Paolo Didier Alfano
dc.contributor.other	Lorenzo Natale
dc.contributor.other	Carmela Calabrese
dc.date.accessioned	2024-12-19T15:13:44Z
dc.date.available	2024-12-19T15:13:44Z
dc.date.issued	2024-12-17
dc.identifier.uri	https://unire.unige.it/handle/123456789/10626
dc.description.abstract	La crescente integrazione dell'intelligenza artificiale nella vita quotidiana presenta nuove sfide e opportunità per lo sviluppo di sistemi robotici in grado di interagire in modo fluido, proattivo e adattivo nel contesto di interazione uomo-robot (HRI) in tempo reale. Questa tesi, condotta presso l'Istituto Italiano di Tecnologia (IIT), esplora approcci multi-modali per abilitare un comportamento intelligente nei robot sfruttando motori di ragionamento alimentati da grandi modelli linguistici (LLM). Per raggiungere questo obiettivo, abbiamo testato e adottato ActionCLIP, un modello che sfrutta frame di azione abbinati a testo descrittivo per eseguire la classificazione delle azioni, integrando informazioni semantiche derivate dal linguaggio naturale. IIT ha proposto uno scenario di riferimento per verificare l'efficacia di questi approcci definendo un'interazione umanoide-umano, in cui il robot osserva l'umano, guidandolo passo dopo passo per completare un'attività. Abbiamo implementato con successo il modello ActionCLIP in YARP, il framework robotico IIT utilizzato per implementare nuove funzionalità nei propri robot e abbiamo implementato la chiamata di funzione per integrare l'LLM nel framework robotico per consentire al robot di ragionare sui diversi stimoli e allo stesso tempo di eseguire abilità esterne. Questo lavoro dimostra il potenziale della combinazione di LLM con approcci multi-modali per un'interazione robotica efficiente e fluida.	it_IT
dc.description.abstract	The increasing integration of artificial intelligence into daily life presents new challenges and opportunities for developing of robotic systems capable of seamlessly, proactively and adaptively human-robot interaction (HRI) in real-time. This thesis, conducted at the Istituto Italiano di Tecnologia (IIT), explores multi-modal approaches to enable intelligent behavior in robots by leveraging reasoning engines powered by large language models (LLMs). To achieve this, we tested and adopted ActionCLIP, a model that leverages action frames paired with descriptive text to perform action classification, integrating semantic information derived from natural language. IIT proposed a reference scenario to verify the effectiveness of these approaches defining a humanoid-human interaction, where the robot observes the human, guiding him step by step to complete a task. We successfully implemented the ActionCLIP model into YARP, the IIT robotic framework used to implement new functionalities in their robots and we implemented function calling to integrate the LLM into the robotic framework to permit the robot to reason over the different stimuli and at the same time to execute external abilities. This work demonstrates the potential of combining LLMs with multi-modal approaches to proficient and seamlessly robotic interaction.	en_UK
dc.language.iso	en
dc.language.iso	it
dc.rights	info:eu-repo/semantics/openAccess
dc.title	Architetture Multi Modali e Modelli Linguistici di Grandi Dimensioni per Task Cooperativi nell'Interazione Uomo-Robot	it_IT
dc.title.alternative	Multi Modal Architecture and Large Language Models for Collaborative Tasks into Human-Robot Interaction	en_UK
dc.type	info:eu-repo/semantics/masterThesis
dc.subject.miur	INF/01 - INFORMATICA
dc.subject.miur	INF/01 - INFORMATICA
dc.publisher.name	Università degli studi di Genova
dc.date.academicyear	2023/2024
dc.description.corsolaurea	10852 - COMPUTER SCIENCE
dc.description.area	7 - SCIENZE MAT.FIS.NAT.
dc.description.department	100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI

Files in questo item

Nome:: tesi31530649.pdf
Dimensione:: 15.41Mb
Formato:: PDF

Mostra/Apri

Questo item appare nelle seguenti collezioni

Laurea Magistrale [6903]

Mostra i principali dati dell'item