Modello di machine learning per rilevare bot e applicazioni su dati raccolti da un Web Application Firewall
Mostra/ Apri
Autore
Palladino, Simone <1998>
Data
2023-10-26Disponibile dal
2023-11-02Abstract
La domanda di ricerca affrontata da questa tesi è se il compito di riconoscere i bot offline sia (1) caratterizzato da differenze intrinseche tra il comportamento degli utenti legittimi e quello degli agenti software automatizzati e (2) apprendibile con metodi di apprendimento automatico standard, in modo che l'analisi non supervisionata sia in grado di rivelare informazioni significative e interessanti. In questa tesi, viene introdotto un nuovo approccio per affrontare il problema dell'individuazione di robot Web dai log di accesso ai server Web, in particolare dalle richieste HTTP raccolte da un WAF. Viene prima definito il concetto di sessione per raggruppare le richieste HTTP, poi si studia quali caratteristiche possono caratterizzare i bot e quali gli esseri umani e infine si applicano algoritmi di clustering per distinguere le sessioni programmatiche da quelle non programmatiche. Il risultato teorico di questa ricerca è un successo e apre le porte a un'implementazione concreta di una soluzione per combattere i bot nel traffico online. The research question addressed by this thesis is whether the task of recognizing offline bots is (1) characterized by inherent differences between the behavior of legitimate users and that of automated software agents and (2) learnable by standard machine learning methods, such that unsupervised analysis is able to reveal meaningful and interesting information. In this thesis, a new approach for addressing the problem of Web robot detection from Web-server access logs is introduced, in particular HTTP requests collected by a WAF. More specifically, a concept of session is first defined for grouping HTTP requests, then it is studied which features can characterize bots and which ones can characterize humans, and finally clustering algorithms are applied to distinguish programmatic from non-programmatic sessions. The theoretical result of this research is a success and opens the door for a concrete implementation of a solution to fight bots in online traffic.
Tipo
info:eu-repo/semantics/masterThesisCollezioni
- Laurea Magistrale [5082]