Sistema LLM multimodale per l'estrazione automatica di dati video e ragionamento in ambienti industriali
Mostra/ Apri
Autore
Suma, Riccardo <2001>
Data
2026-03-23Disponibile dal
2026-03-26Abstract
Questa tesi si propone di colmare il divario tra i flussi di dati non strutturati e l’efficienza operativa industriale, unendo i più recenti progressi nell’ambito dell’Intelligenza Artificiale Generativa e della Computer Vision. L’obiettivo primario è lo sviluppo di un sistema in grado di facilitare i processi di manutenzione e supporto, valorizzando il patrimonio informativo spesso inutilizzato contenuto nella documentazione video tecnica.
Nello specifico, il lavoro descrive la progettazione e l’implementazione di una pipeline Retrieval-Augmented Generation (RAG) multimodale, ingegnerizzata per fornire assistenza granulare a clienti e operatori. Il sistema elabora input audiovisivi eterogenei attraverso due rami paralleli di vettorizzazione: le componenti audio vengono trascritte tramite modelli di Automatic Speech Recognition (ASR) all’avanguardia, mentre le informazioni visive vengono codificate in embedding semantici tramite reti neurali multimodali. Tali rappresentazioni vettoriali vengono indicizzate all’interno di un database apposito (Vector Database), ottimizzato per eseguire strategie di hybrid retrieval.
Questa architettura permette di recuperare non solo il contesto testuale, ma anche la correlazione visiva più pertinente rispetto alla query dell’utente. I vettori selezionati
vengono successivamente forniti come contesto arricchito a un Large Language Model (LLM) locale. Questa scelta architetturale permette al modello di generare risposte
tecnicamente precise e contestualmente rilevanti senza allucinazioni. This thesis aims to bridge the gap between unstructured data streams and industrial operational efficiency by merging the latest advancements in Generative Artificial Intelligence and Computer Vision. The primary objective is the development of a system capable of streamlining maintenance and support processes, leveraging the often-underutilized information assets contained within technical video documentation.
Specifically, this work describes the design and implementation of a multimodal Retrieval-Augmented Generation (RAG) pipeline, engineered to provide granular assistance to both customers and operators. The system processes heterogeneous audiovisual inputs through two parallel vectorization branches: audio components are transcribed using state-of-the-art Automatic Speech Recognition (ASR) models, while visual information is encoded into semantic embeddings via multimodal neural networks.
These vector representations are indexed within a dedicated Vector Database, optimized to execute hybrid retrieval strategies. This architecture enables the retrieval of not only the textual context but also the most relevant visual correlation relative to the user's query. The selected vectors are subsequently provided as enriched context to a local Large Language Model (LLM). This architectural choice allows the model to generate technically precise and contextually relevant responses while mitigating hallucinations.
Tipo
info:eu-repo/semantics/masterThesisCollezioni
- Laurea Magistrale [7402]

