Valutazione e gestione del rischio su dataset contaminati in applicazioni non supervisionate

Bertolini, Matteo Giacomo <2002>

View/Open

tesi29110617.pdf (4.804Mb)

Author

Bertolini, Matteo Giacomo <2002>

Date

2024-07-18

Data available

2024-07-25

Abstract

L’oggetto del lavoro di questa tesi di ricerca è costituito dagli algoritmi di clustering, che svolgono un ruolo fondamentale come strumenti di supporto ai processi decisionali e di automazione, collegata all’ Intelligenza Artificiale. L’ obbiettivo di queste tecniche è quello di raggruppare i dati in base alla loro similarità reciproca. Tuttavia, recenti studi hanno dimostrato che gli algoritmi di clustering sono altamente vulnerabili agli attacchi di poisoning, nei quali un attaccante crea un ponte tra due gruppi distinti per unirli, alterando così la previsione degli algoritmi di clustering. Per questo motivo, diviene di fondamentale importanza saper prevenire e contrastare questo tipo di attacchi. Ciò è possibile attraverso l’utilizzo di algoritmi di rilevamento delle anomalie applicati ai datasets, con l’intento di rimuoverle e sanificare così il più possibile il modello di Machine Learning dai dati avversi. L'obbiettivo di questa tesi è quello di offrire un'analisi preliminare sull’ utilizzo di questi algoritmi, attraverso l’introduzione del concetto di apprendimento automatico malevolo, la visualizzazione dei campioni anomali in confronto a quelli puliti e, infine, la valutazione del rischio macchina attraverso appositi indicatori. I risultati ottenuti evidenziano gli specifici algoritmi da utilizzare per ottimizzare il rischio macchina in base alle diverse condizioni possibili.

The object of this research thesis consists of clustering algorithms, which play a fundamental role as tools to support decision making processes and automation, related to Artificial Intelligence. The goal of these techniques is to group data based on their mutual similarity. However, recent studies have shown that clustering algorithms are highly vulnerable to poisoning attacks, in which an attacker creates a bridge between two distinct groups to merge them, thus altering the predictions of clustering algorithms. For this reason, it becomes a fundamental matter knowing how to prevent and counteract such attacks. This can be achieved through the use of anomaly detection algorithms applied to datasets, with the aim of removing anomalies and thus sanitizing the Machine Learning model from adversarial data as much as possible. The objective of this thesis is to provide a preliminary analysis of the use of these algorithms, through the introduction of the concept of adversarial Machine Learning, the visualization of anomalous samples in comparison to the clean ones and, finally, the machine risk assessment through specific indicators. The obtained results highlight the specific algorithms to use for optimizing the machine risk under different possible conditions.

Type

info:eu-repo/semantics/bachelorThesis