Sistema LLM multimodale per l'estrazione automatica di dati video e ragionamento in ambienti industriali

Suma, Riccardo <2001>

dc.contributor.advisor	Berta, Riccardo <1974>
dc.contributor.advisor	Lazzaroni, Luca <1995>
dc.contributor.author	Suma, Riccardo <2001>
dc.contributor.other	Matteo Sommariva
dc.date.accessioned	2026-03-26T14:29:08Z
dc.date.available	2026-03-26T14:29:08Z
dc.date.issued	2026-03-23
dc.identifier.uri	https://unire.unige.it/handle/123456789/15331
dc.description.abstract	Questa tesi si propone di colmare il divario tra i flussi di dati non strutturati e l’efficienza operativa industriale, unendo i più recenti progressi nell’ambito dell’Intelligenza Artificiale Generativa e della Computer Vision. L’obiettivo primario è lo sviluppo di un sistema in grado di facilitare i processi di manutenzione e supporto, valorizzando il patrimonio informativo spesso inutilizzato contenuto nella documentazione video tecnica. Nello specifico, il lavoro descrive la progettazione e l’implementazione di una pipeline Retrieval-Augmented Generation (RAG) multimodale, ingegnerizzata per fornire assistenza granulare a clienti e operatori. Il sistema elabora input audiovisivi eterogenei attraverso due rami paralleli di vettorizzazione: le componenti audio vengono trascritte tramite modelli di Automatic Speech Recognition (ASR) all’avanguardia, mentre le informazioni visive vengono codificate in embedding semantici tramite reti neurali multimodali. Tali rappresentazioni vettoriali vengono indicizzate all’interno di un database apposito (Vector Database), ottimizzato per eseguire strategie di hybrid retrieval. Questa architettura permette di recuperare non solo il contesto testuale, ma anche la correlazione visiva più pertinente rispetto alla query dell’utente. I vettori selezionati vengono successivamente forniti come contesto arricchito a un Large Language Model (LLM) locale. Questa scelta architetturale permette al modello di generare risposte tecnicamente precise e contestualmente rilevanti senza allucinazioni.	it_IT
dc.description.abstract	This thesis aims to bridge the gap between unstructured data streams and industrial operational efficiency by merging the latest advancements in Generative Artificial Intelligence and Computer Vision. The primary objective is the development of a system capable of streamlining maintenance and support processes, leveraging the often-underutilized information assets contained within technical video documentation. Specifically, this work describes the design and implementation of a multimodal Retrieval-Augmented Generation (RAG) pipeline, engineered to provide granular assistance to both customers and operators. The system processes heterogeneous audiovisual inputs through two parallel vectorization branches: audio components are transcribed using state-of-the-art Automatic Speech Recognition (ASR) models, while visual information is encoded into semantic embeddings via multimodal neural networks. These vector representations are indexed within a dedicated Vector Database, optimized to execute hybrid retrieval strategies. This architecture enables the retrieval of not only the textual context but also the most relevant visual correlation relative to the user's query. The selected vectors are subsequently provided as enriched context to a local Large Language Model (LLM). This architectural choice allows the model to generate technically precise and contextually relevant responses while mitigating hallucinations.	en_UK
dc.language.iso	it
dc.rights	info:eu-repo/semantics/restrictedAccess
dc.title	Sistema LLM multimodale per l'estrazione automatica di dati video e ragionamento in ambienti industriali	it_IT
dc.title.alternative	Multimodal LLM system for automated video knowledge extraction and reasoning in industrial environments	en_UK
dc.type	info:eu-repo/semantics/masterThesis
dc.subject.miur	ING-INF/01 - ELETTRONICA
dc.publisher.name	Università degli studi di Genova
dc.date.academicyear	2024/2025
dc.description.corsolaurea	8732 - INGEGNERIA ELETTRONICA
dc.description.area	9 - INGEGNERIA
dc.description.department	100026 - DIPARTIMENTO DI INGEGNERIA NAVALE, ELETTRICA, ELETTRONICA E DELLE TELECOMUNICAZIONI

Files in questo item

Nome:: tesi37380903.pdf
Dimensione:: 23.21Mb
Formato:: PDF

Mostra/Apri

Questo item appare nelle seguenti collezioni

Laurea Magistrale [7523]

Mostra i principali dati dell'item