Mostra i principali dati dell'item
Costruzione di Personaggi Virtuali Conversazionali con Modelli Open-Source di Linguaggio e Sintesi Vocale
| dc.contributor.advisor | Vercelli, Gianni Viardo <1962> | |
| dc.contributor.advisor | Iacono, Saverio <1979> | |
| dc.contributor.author | Solinas, Federico <2001> | |
| dc.date.accessioned | 2025-12-25T14:13:28Z | |
| dc.date.available | 2025-12-25T14:13:28Z | |
| dc.date.issued | 2025-12-19 | |
| dc.identifier.uri | https://unire.unige.it/handle/123456789/14431 | |
| dc.description.abstract | I personaggi virtuali svolgono un ruolo centrale nelle esperienze interattive nei settori del gaming, dell’educazione e della valorizzazione del patrimonio culturale, ma i dialoghi tradizionalmente basati su script limitano realismo e immersione. I recenti progressi dell’IA, tra cui Large Language Models (LLM), Automatic Speech Recognition (ASR) e Text-to-Speech (TTS), permettono interazioni dinamiche e naturali, ma le soluzioni commerciali risultano spesso costose, dipendenti dal cloud e poco accessibili per contesti con vincoli di budget o di operatività offline. Questa tesi presenta una pipeline conversazionale completamente locale e open-source per Unreal Engine, che integra ASR (whisper.cpp), LLM (llama.cpp), TTS (Kokoro) e componenti di lip-synchronization (NeuroSync e Audio2Face). Il sistema è progettato per essere altamente versatile, consentendo agli sviluppatori di scegliere dimensioni, architetture e varianti ottimizzate dei modelli in base alle proprie esigenze e all’hardware disponibile. I test mostrano che Whisper garantisce un’elevata accuratezza anche con modelli piccoli, mentre Kokoro insieme a NeuroSync o Audio2Face produce parlato naturale e una sincronizzazione labiale efficace. La qualità del dialogo dipende soprattutto dalla dimensione dell’LLM: modelli da 14B parametri in poi offrono interazioni coerenti e contestualmente appropriate, mentre quelli più piccoli restano utilizzabili ma meno affidabili. Le prestazioni sono legate all’hardware: GPU consumer di fascia alta con almeno 24 GB di VRAM permettono bassa latenza e qualità elevata, mentre sistemi con 16 GB possono gestire modelli più compatti, con minore ricchezza e reattività. Nel complesso, i risultati dimostrano che pipeline completamente locali e open-source possono costituire un’alternativa realistica e sostenibile ai servizi commerciali, e che i continui progressi nell’efficienza dei modelli e nell’hardware consumer ne favoriranno una diffusione sempre maggiore. | it_IT |
| dc.description.abstract | Virtual characters play a central role in interactive experiences across gaming, education, and cultural heritage, yet traditional scripted dialogues limit realism and immersion. Recent advances in AI, including Large Language Models (LLMs), Automatic Speech Recognition (ASR), and Text-to-Speech (TTS), enable dynamic, natural interactions, but commercial solutions are costly, cloud-dependent, and inaccessible for budget- or offline-constrained deployments. This thesis presents a fully local, open-source conversational pipeline for Unreal Engine, integrating ASR (whisper.cpp), LLMs (llama.cpp), TTS (Kokoro), and lip-synchronization components (NeuroSync and Audio2Face). The system is designed to be highly versatile, allowing developers to select model sizes, architectures, and even fine-tuned variants according to their needs and available hardware. Evaluation shows that Whisper delivers excellent recognition accuracy even with small models, while Kokoro together with NeuroSync or Audio2Face provides natural speech and reliable lip-synchronization. Dialogue quality depends strongly on LLM size: models of 14B parameters and above consistently offer coherent, contextually consistent interactions, whereas smaller models remain usable but less capable. Performance is closely tied to hardware: top-end consumer-grade GPUs with 24 GB or more VRAM enable high-quality, low-latency interaction, while mid-range systems with 16 GB VRAM can still support the pipeline employing smaller models, though with reduced conversational richness and responsiveness. Overall, the results demonstrate that open-source, fully local pipelines can provide realistic and sustainable alternatives to cloud-based commercial services, and ongoing advances in AI efficiency and consumer hardware will make such systems increasingly accessible in the near future. | en_UK |
| dc.language.iso | en | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.title | Costruzione di Personaggi Virtuali Conversazionali con Modelli Open-Source di Linguaggio e Sintesi Vocale | it_IT |
| dc.title.alternative | Building Conversational Virtual Characters with Open-Source Speech and Language Models | en_UK |
| dc.type | info:eu-repo/semantics/masterThesis | |
| dc.subject.miur | ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI | |
| dc.subject.miur | ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI | |
| dc.subject.miur | ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI | |
| dc.publisher.name | Università degli studi di Genova | |
| dc.date.academicyear | 2024/2025 | |
| dc.description.corsolaurea | 11160 - COMPUTER ENGINEERING | |
| dc.description.area | 9 - INGEGNERIA | |
| dc.description.department | 100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI |
Files in questo item
Questo item appare nelle seguenti collezioni
-
Laurea Magistrale [6794]


