Valutazione e gestione del rischio su dataset contaminati in applicazioni non supervisionate
View/ Open
Author
Bertolini, Matteo Giacomo <2002>
Date
2024-07-18Data available
2024-07-25Abstract
L’oggetto del lavoro di questa tesi di ricerca è costituito dagli algoritmi di clustering,
che svolgono un ruolo fondamentale come strumenti di supporto ai processi decisionali
e di automazione, collegata all’ Intelligenza Artificiale.
L’ obbiettivo di queste tecniche è quello di raggruppare i dati in base alla loro similarità
reciproca.
Tuttavia, recenti studi hanno dimostrato che gli algoritmi di clustering sono altamente
vulnerabili agli attacchi di poisoning, nei quali un attaccante crea un ponte tra due
gruppi distinti per unirli, alterando così la previsione degli algoritmi di clustering.
Per questo motivo, diviene di fondamentale importanza saper prevenire e contrastare
questo tipo di attacchi. Ciò è possibile attraverso l’utilizzo di algoritmi di rilevamento
delle anomalie applicati ai datasets, con l’intento di rimuoverle e sanificare così il più
possibile il modello di Machine Learning dai dati avversi.
L'obbiettivo di questa tesi è quello di offrire un'analisi preliminare sull’ utilizzo di
questi algoritmi, attraverso l’introduzione del concetto di apprendimento automatico
malevolo, la visualizzazione dei campioni anomali in confronto a quelli puliti e, infine,
la valutazione del rischio macchina attraverso appositi indicatori.
I risultati ottenuti evidenziano gli specifici algoritmi da utilizzare per ottimizzare il
rischio macchina in base alle diverse condizioni possibili. The object of this research thesis consists of clustering algorithms, which play a
fundamental role as tools to support decision making processes and automation, related
to Artificial Intelligence.
The goal of these techniques is to group data based on their mutual similarity.
However, recent studies have shown that clustering algorithms are highly vulnerable
to poisoning attacks, in which an attacker creates a bridge between two distinct groups
to merge them, thus altering the predictions of clustering algorithms.
For this reason, it becomes a fundamental matter knowing how to prevent and
counteract such attacks. This can be achieved through the use of anomaly detection
algorithms applied to datasets, with the aim of removing anomalies and thus sanitizing
the Machine Learning model from adversarial data as much as possible.
The objective of this thesis is to provide a preliminary analysis of the use of these
algorithms, through the introduction of the concept of adversarial Machine Learning,
the visualization of anomalous samples in comparison to the clean ones and, finally,
the machine risk assessment through specific indicators.
The obtained results highlight the specific algorithms to use for optimizing the
machine risk under different possible conditions.
Type
info:eu-repo/semantics/bachelorThesisCollections
- Laurea Triennale [2383]