Integrazione dei Foundation Models nelle Architetture Cognitive: Percezione e Pianificazione in Ambienti Dinamici e Non Strutturati

View/ Open
Author
Meschini, Marco <2001>
Date
2025-09-04Data available
2025-09-11Abstract
Lo sviluppo di robot general-purpose rappresenta una pietra miliare fondamentale nell’avanzamento della robotica, offrendo un’ampia applicabilità nei domini industriali, assistivi e orientati ai servizi. Il raggiungimento di questo obiettivo richiede sistemi capaci di percepire, ragionare e interagire autonomamente con l’ambiente. Questa tesi presenta un’architettura cognitiva progettata per soddisfare questi requisiti fondamentali e operare in ambienti non strutturati e dinamici. L’architettura integra un modello visione-linguaggio e un rilevatore di oggetti a vocabolario aperto per generare grafi della scena semanticamente ricchi. Sebbene questo approccio sia robusto per la fase percettiva, i modelli linguistici presentano difficoltà nelle capacità di ragionamento. Per questa limitazione, viene utilizzato un pianificatore simbolico per ragionare sulla rappresentazione del mondo e generare piani orientati agli obiettivi. L’architettura è dotata di un’interfaccia multimodale che supporta l’interazione in linguaggio naturale, permettendo al sistema di comprendere le istruzioni dell’utente e comunicare stati interni o progressi del compito attraverso la voce. I piani simbolici di alto livello sono tradotti in azioni motorie eseguibili, consentendo al robot di svolgere compiti nel mondo reale. L’efficacia dell’architettura è validata attraverso una serie di esperimenti in scenari generali che simulano una collaborazione realistica tra uomo e robot. I risultati dimostrano la capacità del sistema di percepire ambienti nuovi, adattare i piani ai cambiamenti dinamici e fornire un’assistenza significativa ai compiti. The development of general-purpose robots represents a fundamental milestone in the advancement of robotics, offering broad applicability in industrial, assistive, and service-oriented domains. Achieving this objective requires systems capable of perceiving, reasoning, and interacting autonomously with the environment. This thesis presents a cognitive architecture designed to meet these core requirements and operate in unstructured and dynamic environments. The architecture integrates a vision-language model and an open-vocabulary object detector to generate semantically rich scene graphs. While this approach is robust for the perceptual stage, language models struggle in reasoning capabilities. For this limitation, a symbolic planner is used to reason on the world representation and generate goal-oriented plans. The architecture is endowed with a multimodal interface that supports natural language interaction, allowing the system to understand user instructions and convey internal states or task progress through speech. High-level symbolic plans are translated into executable motor actions, enabling the robot to perform real-world tasks. The efficacy of the architecture is validated through a series of experiments in open-ended scenarios simulating realistic human-robot collaboration. Results demonstrate the system’s ability in perceiving novel environments, adapting plans to dynamic changes, and providing meaningful task assistance.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [6140]