Università di Genova logo, link al sitoUniRe logo, link alla pagina iniziale
    • English
    • italiano
  • italiano 
    • English
    • italiano
  • Login
Mostra Item 
  •   Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • Mostra Item
  •   Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • Mostra Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Costruzione di Personaggi Virtuali Conversazionali con Modelli Open-Source di Linguaggio e Sintesi Vocale

Thumbnail
Mostra/Apri
tesi36134903.pdf (2.067Mb)
Autore
Solinas, Federico <2001>
Data
2025-12-19
Disponibile dal
2025-12-25
Abstract
I personaggi virtuali svolgono un ruolo centrale nelle esperienze interattive nei settori del gaming, dell’educazione e della valorizzazione del patrimonio culturale, ma i dialoghi tradizionalmente basati su script limitano realismo e immersione. I recenti progressi dell’IA, tra cui Large Language Models (LLM), Automatic Speech Recognition (ASR) e Text-to-Speech (TTS), permettono interazioni dinamiche e naturali, ma le soluzioni commerciali risultano spesso costose, dipendenti dal cloud e poco accessibili per contesti con vincoli di budget o di operatività offline. Questa tesi presenta una pipeline conversazionale completamente locale e open-source per Unreal Engine, che integra ASR (whisper.cpp), LLM (llama.cpp), TTS (Kokoro) e componenti di lip-synchronization (NeuroSync e Audio2Face). Il sistema è progettato per essere altamente versatile, consentendo agli sviluppatori di scegliere dimensioni, architetture e varianti ottimizzate dei modelli in base alle proprie esigenze e all’hardware disponibile. I test mostrano che Whisper garantisce un’elevata accuratezza anche con modelli piccoli, mentre Kokoro insieme a NeuroSync o Audio2Face produce parlato naturale e una sincronizzazione labiale efficace. La qualità del dialogo dipende soprattutto dalla dimensione dell’LLM: modelli da 14B parametri in poi offrono interazioni coerenti e contestualmente appropriate, mentre quelli più piccoli restano utilizzabili ma meno affidabili. Le prestazioni sono legate all’hardware: GPU consumer di fascia alta con almeno 24 GB di VRAM permettono bassa latenza e qualità elevata, mentre sistemi con 16 GB possono gestire modelli più compatti, con minore ricchezza e reattività. Nel complesso, i risultati dimostrano che pipeline completamente locali e open-source possono costituire un’alternativa realistica e sostenibile ai servizi commerciali, e che i continui progressi nell’efficienza dei modelli e nell’hardware consumer ne favoriranno una diffusione sempre maggiore.
 
Virtual characters play a central role in interactive experiences across gaming, education, and cultural heritage, yet traditional scripted dialogues limit realism and immersion. Recent advances in AI, including Large Language Models (LLMs), Automatic Speech Recognition (ASR), and Text-to-Speech (TTS), enable dynamic, natural interactions, but commercial solutions are costly, cloud-dependent, and inaccessible for budget- or offline-constrained deployments. This thesis presents a fully local, open-source conversational pipeline for Unreal Engine, integrating ASR (whisper.cpp), LLMs (llama.cpp), TTS (Kokoro), and lip-synchronization components (NeuroSync and Audio2Face). The system is designed to be highly versatile, allowing developers to select model sizes, architectures, and even fine-tuned variants according to their needs and available hardware. Evaluation shows that Whisper delivers excellent recognition accuracy even with small models, while Kokoro together with NeuroSync or Audio2Face provides natural speech and reliable lip-synchronization. Dialogue quality depends strongly on LLM size: models of 14B parameters and above consistently offer coherent, contextually consistent interactions, whereas smaller models remain usable but less capable. Performance is closely tied to hardware: top-end consumer-grade GPUs with 24 GB or more VRAM enable high-quality, low-latency interaction, while mid-range systems with 16 GB VRAM can still support the pipeline employing smaller models, though with reduced conversational richness and responsiveness. Overall, the results demonstrate that open-source, fully local pipelines can provide realistic and sustainable alternatives to cloud-based commercial services, and ongoing advances in AI efficiency and consumer hardware will make such systems increasingly accessible in the near future.
 
Tipo
info:eu-repo/semantics/masterThesis
Collezioni
  • Laurea Magistrale [6794]
URI
https://unire.unige.it/handle/123456789/14431
Metadati
Mostra tutti i dati dell'item

UniRe - Università degli studi di Genova | Informazioni e Supporto
 

 

UniReArchivi & Collezioni

Area personale

Login

UniRe - Università degli studi di Genova | Informazioni e Supporto