Università di Genova logo, link al sitoUniRe logo, link alla pagina iniziale
    • English
    • italiano
  • English 
    • English
    • italiano
  • Login
View Item 
  •   DSpace Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • View Item
  •   DSpace Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Verso un'Efficiente Valutazione della Tossicità: Sfruttare la Quantizzazione degli LLM e la Trasferibilità degli Attacchi di Prompt Injection

View/Open
tesi30543624.pdf (10.57Mb)
Author
Bisio, Giacomo <2000>
Date
2024-10-15
Data available
2024-10-17
Abstract
Il rapido sviluppo dei Large Language Models (LLMs) ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP), offrendo capacità senza precedenti nella comprensione e generazione di testi simili a quelli umani. Tuttavia, l'implementazione di questi modelli comporta sfide significative, in particolare in termini di sicurezza ed efficienza computazionale. Questa tesi esplora l'intersezione tra la quantizzazione dei modelli, il processo di riduzione della precisione dei pesi di una rete neurale, e la trasferibilità degli attacchi di tipo “Jailbreak” nei LLMs. Questa ricerca indaga come gli attacchi creati su modelli quantizzati possano trasferirsi ai loro corrispondenti ad alta precisione, rivelando potenziali rischi di sicurezza presenti negli attuali metodi di quantizzazione. Attraverso esperimenti condotti su una gamma di modelli e scenari di attacco, la ricerca dimostra che gli attacchi mirati ai modelli a bassa precisione possono, in molti casi, compromettere efficacemente modelli ad alta precisione. Questi risultati evidenziano una lacuna nella sicurezza che potrebbe essere sfruttata da utenti malintenzionati, sottolineando la necessità di strategie di quantizzazione più sicure.
 
The rapid advancement of Large Language Models (LLMs) has revolutionized the field of natural language processing (NLP), offering unprecedented capabilities in understanding and generating human-like text. However, the deployment of these models comes with significant challenges, particularly in terms of security and computational efficiency. This thesis explores the intersection of model quantization, the process of reducing the precision of the weights of a neural network, and the transferability of adversarial jailbreaking attacks in LLMs. This research investigates how attacks crafted on quantized models can transfer to their higher precision counterparts, revealing potential security risks inherent in current quantization methods. By conducting experiments across a range of models and attack scenarios, the research demonstrates that attacks targeting low-precision models can, in many cases, effectively compromise models of higher precision. This finding highlights a critical security gap that could be exploited by malicious actors, emphasizing the need for more secure quantization strategies.
 
Type
info:eu-repo/semantics/masterThesis
Collections
  • Laurea Magistrale [5659]
URI
https://unire.unige.it/handle/123456789/9619
Metadata
Show full item record

UniRe - Università degli studi di Genova | Contact Us
 

 

All of DSpaceCommunities & Collections

My Account

Login

UniRe - Università degli studi di Genova | Contact Us