Università di Genova logo, link al sitoUniRe logo, link alla pagina iniziale
    • English
    • italiano
  • italiano 
    • English
    • italiano
  • Login
Mostra Item 
  •   Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • Mostra Item
  •   Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • Mostra Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Sistema LLM multimodale per l'estrazione automatica di dati video e ragionamento in ambienti industriali

Mostra/Apri
tesi37380903.pdf (23.21Mb)
Autore
Suma, Riccardo <2001>
Data
2026-03-23
Disponibile dal
2026-03-26
Abstract
Questa tesi si propone di colmare il divario tra i flussi di dati non strutturati e l’efficienza operativa industriale, unendo i più recenti progressi nell’ambito dell’Intelligenza Artificiale Generativa e della Computer Vision. L’obiettivo primario è lo sviluppo di un sistema in grado di facilitare i processi di manutenzione e supporto, valorizzando il patrimonio informativo spesso inutilizzato contenuto nella documentazione video tecnica. Nello specifico, il lavoro descrive la progettazione e l’implementazione di una pipeline Retrieval-Augmented Generation (RAG) multimodale, ingegnerizzata per fornire assistenza granulare a clienti e operatori. Il sistema elabora input audiovisivi eterogenei attraverso due rami paralleli di vettorizzazione: le componenti audio vengono trascritte tramite modelli di Automatic Speech Recognition (ASR) all’avanguardia, mentre le informazioni visive vengono codificate in embedding semantici tramite reti neurali multimodali. Tali rappresentazioni vettoriali vengono indicizzate all’interno di un database apposito (Vector Database), ottimizzato per eseguire strategie di hybrid retrieval. Questa architettura permette di recuperare non solo il contesto testuale, ma anche la correlazione visiva più pertinente rispetto alla query dell’utente. I vettori selezionati vengono successivamente forniti come contesto arricchito a un Large Language Model (LLM) locale. Questa scelta architetturale permette al modello di generare risposte tecnicamente precise e contestualmente rilevanti senza allucinazioni.
 
This thesis aims to bridge the gap between unstructured data streams and industrial operational efficiency by merging the latest advancements in Generative Artificial Intelligence and Computer Vision. The primary objective is the development of a system capable of streamlining maintenance and support processes, leveraging the often-underutilized information assets contained within technical video documentation. Specifically, this work describes the design and implementation of a multimodal Retrieval-Augmented Generation (RAG) pipeline, engineered to provide granular assistance to both customers and operators. The system processes heterogeneous audiovisual inputs through two parallel vectorization branches: audio components are transcribed using state-of-the-art Automatic Speech Recognition (ASR) models, while visual information is encoded into semantic embeddings via multimodal neural networks. These vector representations are indexed within a dedicated Vector Database, optimized to execute hybrid retrieval strategies. This architecture enables the retrieval of not only the textual context but also the most relevant visual correlation relative to the user's query. The selected vectors are subsequently provided as enriched context to a local Large Language Model (LLM). This architectural choice allows the model to generate technically precise and contextually relevant responses while mitigating hallucinations.
 
Tipo
info:eu-repo/semantics/masterThesis
Collezioni
  • Laurea Magistrale [7402]
URI
https://unire.unige.it/handle/123456789/15331
Metadati
Mostra tutti i dati dell'item

UniRe - Università degli studi di Genova | Informazioni e Supporto
 

 

UniReArchivi & Collezioni

Area personale

Login

UniRe - Università degli studi di Genova | Informazioni e Supporto