Mostra i principali dati dell'item

dc.contributor.advisorDemetrio, Luca <1993>
dc.contributor.advisorDell'Amico, Matteo <1979>
dc.contributor.advisorRovetta, Stefano <1966>
dc.contributor.authorHaider, Ali <2000>
dc.date.accessioned2025-04-03T14:19:34Z
dc.date.available2025-04-03T14:19:34Z
dc.date.issued2025-03-27
dc.identifier.urihttps://unire.unige.it/handle/123456789/11816
dc.description.abstractÈ noto che i language models sollevano problemi di privacy, poiché i dati confidenziali che possono essere inclusi nei loro dati di addestramento possono essere esposti agli utenti. Carlini et al. hanno proposto una metrica, EXPOSURE, per valutare quanto un determinato dato sensibile diventi prominente a causa della sua inclusione nel training set. Pur essendo utile, Carlini et al. ammettono che tale metrica può essere utilizzata solo come limite inferiore al livello effettivo di perdita di privacy, il che implica che un attaccante potrebbe estrarre un dato sensibile dal language model vittima con meno sforzo rispetto a quanto stimato dalla metrica EXPOSURE. Inoltre, EXPOSURE può essere calcolata soltanto iniettando volontariamente dati sensibili all’interno di un language model e successivamente recuperandoli. Per superare questo problema, proponiamo di utilizzare una metrica differente, ovvero il guess-number ranking, che calcola il numero di tentativi che un attaccante dovrebbe effettuare per trovare un determinato dato sensibile. Il guess ranking può essere calcolato in modo efficiente utilizzando un algoritmo Monte Carlo, ideato per la valutazione della robustezza delle password e recentemente adottato nel contesto degli attacchi side-channel.it_IT
dc.description.abstractIt is known that language models raise privacy issues, because confidential data that may be included in their training data may be exposed to users. Carlini et al. proposed a metric, EXPOSURE, to evaluate how much a given piece of sensitive data becomes prominent due to its inclusion in the training set. While useful, Carlini et al. admit it can only be used as a lower bound for the actual level of privacy loss, implying that an attacker might leak an intended piece of data from the victim large language model with less effort than the one computed by the EXPOSURE metrics. Also, EXPOSURE can only be computed by willingly injecting sensitive data inside a language model, and later retrieving it. To overcome this issue, we propose to leverage a different metric, that is the guess-number ranking, that computes the number of guesses an attacker needs to try before finding a specific piece of sensitive data. Guess ranking can be computed efficiently using a Monte Carlo algorithm devised for password strength checking and recently adopted in the context of side-channel attacks.en_UK
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.titleMetriche Guess-number per la perdita di privacy nei Large Language Modelsit_IT
dc.title.alternativeGuess-number Metrics for Privacy Exposure in Large Language Modelsen_UK
dc.typeinfo:eu-repo/semantics/masterThesis
dc.subject.miurING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
dc.publisher.nameUniversità degli studi di Genova
dc.date.academicyear2023/2024
dc.description.corsolaurea10852 - COMPUTER SCIENCE
dc.description.area7 - SCIENZE MAT.FIS.NAT.
dc.description.department100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI


Files in questo item

Thumbnail

Questo item appare nelle seguenti collezioni

Mostra i principali dati dell'item