Applicazioni degli SLM come assistenti personali personalizzati nel settore sanitario
View/ Open
Author
Zanetta, Stefania <1998>
Date
2025-03-27Data available
2026-04-03Abstract
Il rapido progresso del Natural Language Processing (NLP) ha portato all'adozione diffusa dei Large Language Models (LLMs). Tuttavia, alti costi computazionali e la possibilità di generare risposte inaffidabili pongono sfide significative, in particolare in campi sensibili come quello sanitario. I Small Language Models (SLMs) sono emersi come un'alternativa, offrendo prestazioni efficienti su dispositivi con risorse limitate, mantenendo capacità di comprensione e generazione del linguaggio competitive.
Questa tesi esplora l'integrazione degli SLM con Retrieval-Augmented Generation (RAG) per sviluppare un chatbot di primo soccorso. Il sistema viene eseguito su dispositivi edge, in particolare Jetson AGX Xavier, recuperando informazioni da un dataset di manuali di primo soccorso. L'obiettivo è di fornire una guida accurata per le emergenze quando l'aiuto professionale non è disponibile.
Il sistema viene valutato in termini di recupero, generazione e latenza. Per il recupero, vengono testate diverse strategie di chunking e modelli di embedding. Nella generazione, in aggiunta a diverse metriche di valutazione, è stata condotta una valutazione manuale, seguita da una valutazione di esperti. I modelli Phi-3-mini e Phi-3.5-mini ottengono migliori risultati in termini di correttezza. I test sulla latenza mostrano che i modelli più piccoli, come Qwen2.5-0.5B, presentano una latenza inferiore, mentre i modelli Phi offrono un equilibrio tra accuratezza ed efficienza. The rapid advancement of Natural Language Processing (NLP) has led to the widespread adoption of Large Language Models (LLMs). However, their high computational costs and potential for generating unreliable answers pose significant challenges, particularly in fields like healthcare. Small Language Models (SLMs) have emerged as an alternative, offering efficient performance on resource-constrained devices while maintaining competitive language understanding and generation capabilities.
This thesis explores integrating SLMs with Retrieval-Augmented Generation (RAG) to develop a first aid chatbot. The system runs on edge devices, specifically the Jetson AGX Xavier, and retrieves information from a controlled dataset of first aid manuals. The chatbot aims to deliver accurate emergency guidance when professional help is unavailable.
The system is evaluated across retrieval, generation, and latency. In retrieval, various chunking strategies and embedding models are tested. The generation phase is assessed using multiple evaluation metrics: generation relevance, faithfulness, and correctness. Phi-3-mini and Phi-3.5-mini demonstrate the highest correctness scores. To further validate response accuracy, a human evaluation was conducted, followed by an expert assessment, which confirmed that the Phi models produce more reliable and concise answers suitable for first aid scenarios. Lastly, latency tests reveal that smaller models such as Qwen2.5-0.5B exhibit lower median latency, while Phi models achieve a balance between accuracy and computational efficiency.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [5638]