Valutazione dei Requisiti Tecnici dell'EU AI Act: un Caso d'Uso sulla Rilevazione di Malware

Barberis, Francesco <2003>

Mostra/Apri

tesi33436850.pdf (1.637Mb)

Autore

Barberis, Francesco <2003>

Data

2025-07-17

Disponibile dal

2025-07-24

Abstract

La tesi affronta il tema della traduzione dell’European AI Act, primo quadro normativo completo dedicato all’intelligenza artificiale, in requisiti tecnici misurabili utili alla valutazione dei modelli. Il framework COMPL-AI rappresenta un primo tentativo in questa direzione, proponendo una suite di benchmark pensata per valutare la compliance dei Large Language Models (LLM); il suo campo di applicazione, tuttavia, resta limitato a questa tipologia di modelli, tralasciando alcuni aspetti fondamentali della normativa. Tra questi, il requisito della conformità continua — esplicitamente sancito nel testo del regolamento e particolarmente rilevante in ambiti applicativi soggetti a concept shift — costituisce una lacuna significativa. Il lavoro propone un caso d’uso nell’ambito della malware detection per mostrare come la valutazione di questo requisito sia non solo rilevante, ma anche tecnicamente realizzabile. Attraverso una serie di esperimenti condotti su MalConv, rete neurale progettata per il riconoscimento di malware, si analizzano le variazioni delle prestazioni del modello su campioni appartenenti a epoche differenti. Pur non essendo finalizzata alla valutazione della compliance di MalConv, l’analisi dimostra come estendere la trattazione a modelli non-LLM consenta di affrontare requisiti normativi oggi trascurati. I risultati sottolineano la necessità di benchmark più eterogenei e specifici per dominio, in grado di supportare un’efficace applicazione dell’AI Act.

This thesis explores the technical translation of the European AI Act, the first comprehensive regulatory framework on artificial intelligence, into measurable requirements that can guide model evaluation. While the COMPL-AI framework provides a first attempt at benchmarking the compliance of Large Language Models (LLMs), its focus remains limited to that specific model class, leaving several regulatory principles insufficiently addressed. Among these, the requirement for continuous conformity — central in the AI Act and particularly relevant in domains subject to the phenomenon known as concept shift — emerges as a notable gap. This work selects malware detection as a case study to investigate whether such temporal robustness can be evaluated in practice. Through a series of experiments conducted on MalConv, a neural network designed to detect malicious software, the study analyzes variations in model performance across samples from different time periods. Results show that tracking performance degradation over time is feasible, especially in dynamic domains like cybersecurity. Although the analysis does not aim to assess MalConv’s compliance with the regulation, it demonstrates that extending compliance-oriented evaluation beyond LLMs can help address neglected aspects of the AI Act: the results of the experiments highlight the need for diversified, domain-aware benchmarks to support effective implementation of its regulatory requirements.

Tipo

info:eu-repo/semantics/bachelorThesis