Mostra i principali dati dell'item

dc.contributor.advisorBerta, Riccardo <1974>
dc.contributor.advisorLazzaroni, Luca <1995>
dc.contributor.authorSuma, Riccardo <2001>
dc.contributor.otherMatteo Sommariva
dc.date.accessioned2026-03-26T14:29:08Z
dc.date.available2026-03-26T14:29:08Z
dc.date.issued2026-03-23
dc.identifier.urihttps://unire.unige.it/handle/123456789/15331
dc.description.abstractQuesta tesi si propone di colmare il divario tra i flussi di dati non strutturati e l’efficienza operativa industriale, unendo i più recenti progressi nell’ambito dell’Intelligenza Artificiale Generativa e della Computer Vision. L’obiettivo primario è lo sviluppo di un sistema in grado di facilitare i processi di manutenzione e supporto, valorizzando il patrimonio informativo spesso inutilizzato contenuto nella documentazione video tecnica. Nello specifico, il lavoro descrive la progettazione e l’implementazione di una pipeline Retrieval-Augmented Generation (RAG) multimodale, ingegnerizzata per fornire assistenza granulare a clienti e operatori. Il sistema elabora input audiovisivi eterogenei attraverso due rami paralleli di vettorizzazione: le componenti audio vengono trascritte tramite modelli di Automatic Speech Recognition (ASR) all’avanguardia, mentre le informazioni visive vengono codificate in embedding semantici tramite reti neurali multimodali. Tali rappresentazioni vettoriali vengono indicizzate all’interno di un database apposito (Vector Database), ottimizzato per eseguire strategie di hybrid retrieval. Questa architettura permette di recuperare non solo il contesto testuale, ma anche la correlazione visiva più pertinente rispetto alla query dell’utente. I vettori selezionati vengono successivamente forniti come contesto arricchito a un Large Language Model (LLM) locale. Questa scelta architetturale permette al modello di generare risposte tecnicamente precise e contestualmente rilevanti senza allucinazioni.it_IT
dc.description.abstractThis thesis aims to bridge the gap between unstructured data streams and industrial operational efficiency by merging the latest advancements in Generative Artificial Intelligence and Computer Vision. The primary objective is the development of a system capable of streamlining maintenance and support processes, leveraging the often-underutilized information assets contained within technical video documentation. Specifically, this work describes the design and implementation of a multimodal Retrieval-Augmented Generation (RAG) pipeline, engineered to provide granular assistance to both customers and operators. The system processes heterogeneous audiovisual inputs through two parallel vectorization branches: audio components are transcribed using state-of-the-art Automatic Speech Recognition (ASR) models, while visual information is encoded into semantic embeddings via multimodal neural networks. These vector representations are indexed within a dedicated Vector Database, optimized to execute hybrid retrieval strategies. This architecture enables the retrieval of not only the textual context but also the most relevant visual correlation relative to the user's query. The selected vectors are subsequently provided as enriched context to a local Large Language Model (LLM). This architectural choice allows the model to generate technically precise and contextually relevant responses while mitigating hallucinations.en_UK
dc.language.isoit
dc.rightsinfo:eu-repo/semantics/restrictedAccess
dc.titleSistema LLM multimodale per l'estrazione automatica di dati video e ragionamento in ambienti industrialiit_IT
dc.title.alternativeMultimodal LLM system for automated video knowledge extraction and reasoning in industrial environmentsen_UK
dc.typeinfo:eu-repo/semantics/masterThesis
dc.subject.miurING-INF/01 - ELETTRONICA
dc.publisher.nameUniversità degli studi di Genova
dc.date.academicyear2024/2025
dc.description.corsolaurea8732 - INGEGNERIA ELETTRONICA
dc.description.area9 - INGEGNERIA
dc.description.department100026 - DIPARTIMENTO DI INGEGNERIA NAVALE, ELETTRICA, ELETTRONICA E DELLE TELECOMUNICAZIONI


Files in questo item

Questo item appare nelle seguenti collezioni

Mostra i principali dati dell'item