Costruzione di Personaggi Virtuali Conversazionali con Modelli Open-Source di Linguaggio e Sintesi Vocale

Solinas, Federico <2001>

dc.contributor.advisor	Vercelli, Gianni Viardo <1962>
dc.contributor.advisor	Iacono, Saverio <1979>
dc.contributor.author	Solinas, Federico <2001>
dc.date.accessioned	2025-12-25T14:13:28Z
dc.date.available	2025-12-25T14:13:28Z
dc.date.issued	2025-12-19
dc.identifier.uri	https://unire.unige.it/handle/123456789/14431
dc.description.abstract	I personaggi virtuali svolgono un ruolo centrale nelle esperienze interattive nei settori del gaming, dell’educazione e della valorizzazione del patrimonio culturale, ma i dialoghi tradizionalmente basati su script limitano realismo e immersione. I recenti progressi dell’IA, tra cui Large Language Models (LLM), Automatic Speech Recognition (ASR) e Text-to-Speech (TTS), permettono interazioni dinamiche e naturali, ma le soluzioni commerciali risultano spesso costose, dipendenti dal cloud e poco accessibili per contesti con vincoli di budget o di operatività offline. Questa tesi presenta una pipeline conversazionale completamente locale e open-source per Unreal Engine, che integra ASR (whisper.cpp), LLM (llama.cpp), TTS (Kokoro) e componenti di lip-synchronization (NeuroSync e Audio2Face). Il sistema è progettato per essere altamente versatile, consentendo agli sviluppatori di scegliere dimensioni, architetture e varianti ottimizzate dei modelli in base alle proprie esigenze e all’hardware disponibile. I test mostrano che Whisper garantisce un’elevata accuratezza anche con modelli piccoli, mentre Kokoro insieme a NeuroSync o Audio2Face produce parlato naturale e una sincronizzazione labiale efficace. La qualità del dialogo dipende soprattutto dalla dimensione dell’LLM: modelli da 14B parametri in poi offrono interazioni coerenti e contestualmente appropriate, mentre quelli più piccoli restano utilizzabili ma meno affidabili. Le prestazioni sono legate all’hardware: GPU consumer di fascia alta con almeno 24 GB di VRAM permettono bassa latenza e qualità elevata, mentre sistemi con 16 GB possono gestire modelli più compatti, con minore ricchezza e reattività. Nel complesso, i risultati dimostrano che pipeline completamente locali e open-source possono costituire un’alternativa realistica e sostenibile ai servizi commerciali, e che i continui progressi nell’efficienza dei modelli e nell’hardware consumer ne favoriranno una diffusione sempre maggiore.	it_IT
dc.description.abstract	Virtual characters play a central role in interactive experiences across gaming, education, and cultural heritage, yet traditional scripted dialogues limit realism and immersion. Recent advances in AI, including Large Language Models (LLMs), Automatic Speech Recognition (ASR), and Text-to-Speech (TTS), enable dynamic, natural interactions, but commercial solutions are costly, cloud-dependent, and inaccessible for budget- or offline-constrained deployments. This thesis presents a fully local, open-source conversational pipeline for Unreal Engine, integrating ASR (whisper.cpp), LLMs (llama.cpp), TTS (Kokoro), and lip-synchronization components (NeuroSync and Audio2Face). The system is designed to be highly versatile, allowing developers to select model sizes, architectures, and even fine-tuned variants according to their needs and available hardware. Evaluation shows that Whisper delivers excellent recognition accuracy even with small models, while Kokoro together with NeuroSync or Audio2Face provides natural speech and reliable lip-synchronization. Dialogue quality depends strongly on LLM size: models of 14B parameters and above consistently offer coherent, contextually consistent interactions, whereas smaller models remain usable but less capable. Performance is closely tied to hardware: top-end consumer-grade GPUs with 24 GB or more VRAM enable high-quality, low-latency interaction, while mid-range systems with 16 GB VRAM can still support the pipeline employing smaller models, though with reduced conversational richness and responsiveness. Overall, the results demonstrate that open-source, fully local pipelines can provide realistic and sustainable alternatives to cloud-based commercial services, and ongoing advances in AI efficiency and consumer hardware will make such systems increasingly accessible in the near future.	en_UK
dc.language.iso	en
dc.rights	info:eu-repo/semantics/openAccess
dc.title	Costruzione di Personaggi Virtuali Conversazionali con Modelli Open-Source di Linguaggio e Sintesi Vocale	it_IT
dc.title.alternative	Building Conversational Virtual Characters with Open-Source Speech and Language Models	en_UK
dc.type	info:eu-repo/semantics/masterThesis
dc.subject.miur	ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
dc.subject.miur	ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
dc.subject.miur	ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
dc.publisher.name	Università degli studi di Genova
dc.date.academicyear	2024/2025
dc.description.corsolaurea	11160 - COMPUTER ENGINEERING
dc.description.area	9 - INGEGNERIA
dc.description.department	100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI

Files in questo item

Nome:: tesi36134903.pdf
Dimensione:: 2.067Mb
Formato:: PDF

Mostra/Apri

Questo item appare nelle seguenti collezioni

Laurea Magistrale [7429]

Mostra i principali dati dell'item