Valutazione delle prestazioni di un assistente virtuale

Caviglia, Lisa <2001>

View/Open

tesi36840902.pdf (2.330Mb)

Author

Caviglia, Lisa <2001>

Date

2026-02-19

Data available

2026-02-26

Abstract

La tesi si focalizza sulla valutazione di Lumi, l'assistente virtuale intelligente sviluppato da sedApta Group. Il lavoro, inserito in un progetto di ricerca aziendale per creare un framework di testing per modelli di IA generativa, affronta due ambiti principali. Primo, la valutazione della capacità di generare query strutturate (OData e SQL) per interrogare database aziendali. Superando i limiti degli approcci tradizionali basati su embedding vettoriali, è stata sviluppata una pipeline di valutazione semantica che sfrutta le capacità di ragionamento dei Large Language Models. Secondo, la valutazione delle risposte in linguaggio naturale basate su documentazione tecnica attraverso sistemi Retrieval-Augmented Generation (RAG). Sono state implementate metriche personalizzate secondo il paradigma LLM-as-Judge per valutare pertinenza, fedeltà alla documentazione e assenza di allucinazioni. La tesi include background teorico su IA generativa, LLM, prompt engineering e RAG, descrizione dell'architettura ReAct Agent di Lumi, metodologia di valutazione delle interrogazioni implementata con LangChain, e confronto tra metriche tradizionali e approcci innovativi basati su LLM per il tool Documentation.

This thesis focuses on the evaluation of Lumi, the intelligent virtual assistant developed by sedApta Group. The work, part of a corporate research project to create a testing framework for generative AI models, addresses two main areas. First, the evaluation of the ability to generate structured queries (OData and SQL) to query corporate databases. Overcoming the limitations of traditional approaches based on vector embeddings, a semantic evaluation pipeline was developed that leverages the reasoning capabilities of Large Language Models. Second, the evaluation of natural language responses based on technical documentation using Retrieval-Augmented Generation (RAG) systems. Custom metrics were implemented according to the LLM-as-Judge paradigm to assess relevance, documentation fidelity, and the absence of hallucinations. The thesis includes theoretical background on generative AI, LLM, prompt engineering, and RAG, a description of Lumi's ReAct Agent architecture, a query evaluation methodology implemented with LangChain, and a comparison between traditional metrics and innovative LLM-based approaches for the Documentation tool.

Type

info:eu-repo/semantics/bachelorThesis