Valutazione dei Requisiti Tecnici dell'EU AI Act: un Caso d'Uso sulla Rilevazione di Malware
Mostra/ Apri
Autore
Barberis, Francesco <2003>
Data
2025-07-17Disponibile dal
2025-07-24Abstract
La tesi affronta il tema della traduzione dell’European AI Act, primo quadro normativo
completo dedicato all’intelligenza artificiale, in requisiti tecnici misurabili utili alla
valutazione dei modelli. Il framework COMPL-AI rappresenta un primo tentativo in questa
direzione, proponendo una suite di benchmark pensata per valutare la compliance dei Large
Language Models (LLM); il suo campo di applicazione, tuttavia, resta limitato a questa
tipologia di modelli, tralasciando alcuni aspetti fondamentali della normativa.
Tra questi, il requisito della conformità continua — esplicitamente sancito nel testo del
regolamento e particolarmente rilevante in ambiti applicativi soggetti a concept shift —
costituisce una lacuna significativa. Il lavoro propone un caso d’uso nell’ambito della
malware detection per mostrare come la valutazione di questo requisito sia non solo
rilevante, ma anche tecnicamente realizzabile. Attraverso una serie di esperimenti condotti
su MalConv, rete neurale progettata per il riconoscimento di malware, si analizzano le
variazioni delle prestazioni del modello su campioni appartenenti a epoche differenti.
Pur non essendo finalizzata alla valutazione della compliance di MalConv, l’analisi dimostra
come estendere la trattazione a modelli non-LLM consenta di affrontare requisiti normativi
oggi trascurati. I risultati sottolineano la necessità di benchmark più eterogenei e specifici
per dominio, in grado di supportare un’efficace applicazione dell’AI Act. This thesis explores the technical translation of the European AI Act, the first comprehensive
regulatory framework on artificial intelligence, into measurable requirements that can guide
model evaluation. While the COMPL-AI framework provides a first attempt at
benchmarking the compliance of Large Language Models (LLMs), its focus remains limited
to that specific model class, leaving several regulatory principles insufficiently addressed.
Among these, the requirement for continuous conformity — central in the AI Act and
particularly relevant in domains subject to the phenomenon known as concept shift —
emerges as a notable gap. This work selects malware detection as a case study to investigate
whether such temporal robustness can be evaluated in practice. Through a series of
experiments conducted on MalConv, a neural network designed to detect malicious software,
the study analyzes variations in model performance across samples from different time
periods. Results show that tracking performance degradation over time is feasible, especially
in dynamic domains like cybersecurity.
Although the analysis does not aim to assess MalConv’s compliance with the regulation, it
demonstrates that extending compliance-oriented evaluation beyond LLMs can help address
neglected aspects of the AI Act: the results of the experiments highlight the need for
diversified, domain-aware benchmarks to support effective implementation of its regulatory
requirements.
Tipo
info:eu-repo/semantics/bachelorThesisCollezioni
- Laurea Triennale [3218]