Verso un'Efficiente Valutazione della Tossicità: Sfruttare la Quantizzazione degli LLM e la Trasferibilità degli Attacchi di Prompt Injection

Bisio, Giacomo <2000>

View/Open

tesi30543624.pdf (10.57Mb)

Author

Bisio, Giacomo <2000>

Date

2024-10-15

Data available

2024-10-17

Abstract

Il rapido sviluppo dei Large Language Models (LLMs) ha rivoluzionato il campo dell'elaborazione del linguaggio naturale (NLP), offrendo capacità senza precedenti nella comprensione e generazione di testi simili a quelli umani. Tuttavia, l'implementazione di questi modelli comporta sfide significative, in particolare in termini di sicurezza ed efficienza computazionale. Questa tesi esplora l'intersezione tra la quantizzazione dei modelli, il processo di riduzione della precisione dei pesi di una rete neurale, e la trasferibilità degli attacchi di tipo “Jailbreak” nei LLMs. Questa ricerca indaga come gli attacchi creati su modelli quantizzati possano trasferirsi ai loro corrispondenti ad alta precisione, rivelando potenziali rischi di sicurezza presenti negli attuali metodi di quantizzazione. Attraverso esperimenti condotti su una gamma di modelli e scenari di attacco, la ricerca dimostra che gli attacchi mirati ai modelli a bassa precisione possono, in molti casi, compromettere efficacemente modelli ad alta precisione. Questi risultati evidenziano una lacuna nella sicurezza che potrebbe essere sfruttata da utenti malintenzionati, sottolineando la necessità di strategie di quantizzazione più sicure.

The rapid advancement of Large Language Models (LLMs) has revolutionized the field of natural language processing (NLP), offering unprecedented capabilities in understanding and generating human-like text. However, the deployment of these models comes with significant challenges, particularly in terms of security and computational efficiency. This thesis explores the intersection of model quantization, the process of reducing the precision of the weights of a neural network, and the transferability of adversarial jailbreaking attacks in LLMs. This research investigates how attacks crafted on quantized models can transfer to their higher precision counterparts, revealing potential security risks inherent in current quantization methods. By conducting experiments across a range of models and attack scenarios, the research demonstrates that attacks targeting low-precision models can, in many cases, effectively compromise models of higher precision. This finding highlights a critical security gap that could be exploited by malicious actors, emphasizing the need for more secure quantization strategies.

Type

info:eu-repo/semantics/masterThesis