Università di Genova logo, link al sitoUniRe logo, link alla pagina iniziale
    • English
    • italiano
  • italiano 
    • English
    • italiano
  • Login
Mostra Item 
  •   Home
  • Tesi
  • Tesi di Laurea
  • Laurea Triennale
  • Mostra Item
  •   Home
  • Tesi
  • Tesi di Laurea
  • Laurea Triennale
  • Mostra Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Valutazione delle prestazioni di un assistente virtuale

Mostra/Apri
tesi36840902.pdf (2.330Mb)
Autore
Caviglia, Lisa <2001>
Data
2026-02-19
Disponibile dal
2026-02-26
Abstract
La tesi si focalizza sulla valutazione di Lumi, l'assistente virtuale intelligente sviluppato da sedApta Group. Il lavoro, inserito in un progetto di ricerca aziendale per creare un framework di testing per modelli di IA generativa, affronta due ambiti principali. Primo, la valutazione della capacità di generare query strutturate (OData e SQL) per interrogare database aziendali. Superando i limiti degli approcci tradizionali basati su embedding vettoriali, è stata sviluppata una pipeline di valutazione semantica che sfrutta le capacità di ragionamento dei Large Language Models. Secondo, la valutazione delle risposte in linguaggio naturale basate su documentazione tecnica attraverso sistemi Retrieval-Augmented Generation (RAG). Sono state implementate metriche personalizzate secondo il paradigma LLM-as-Judge per valutare pertinenza, fedeltà alla documentazione e assenza di allucinazioni. La tesi include background teorico su IA generativa, LLM, prompt engineering e RAG, descrizione dell'architettura ReAct Agent di Lumi, metodologia di valutazione delle interrogazioni implementata con LangChain, e confronto tra metriche tradizionali e approcci innovativi basati su LLM per il tool Documentation.
 
This thesis focuses on the evaluation of Lumi, the intelligent virtual assistant developed by sedApta Group. The work, part of a corporate research project to create a testing framework for generative AI models, addresses two main areas. First, the evaluation of the ability to generate structured queries (OData and SQL) to query corporate databases. Overcoming the limitations of traditional approaches based on vector embeddings, a semantic evaluation pipeline was developed that leverages the reasoning capabilities of Large Language Models. Second, the evaluation of natural language responses based on technical documentation using Retrieval-Augmented Generation (RAG) systems. Custom metrics were implemented according to the LLM-as-Judge paradigm to assess relevance, documentation fidelity, and the absence of hallucinations. The thesis includes theoretical background on generative AI, LLM, prompt engineering, and RAG, a description of Lumi's ReAct Agent architecture, a query evaluation methodology implemented with LangChain, and a comparison between traditional metrics and innovative LLM-based approaches for the Documentation tool.
 
Tipo
info:eu-repo/semantics/bachelorThesis
Collezioni
  • Laurea Triennale [4361]
URI
https://unire.unige.it/handle/123456789/14878
Metadati
Mostra tutti i dati dell'item

UniRe - Università degli studi di Genova | Informazioni e Supporto
 

 

UniReArchivi & Collezioni

Area personale

Login

UniRe - Università degli studi di Genova | Informazioni e Supporto