Quando gli Agenti AI Diventano Avversari: Elusione di Scanner di Sicurezza

Mercuri, Andrea <1995>

View/Open

tesi37257902.pdf (2.479Mb)

Author

Mercuri, Andrea <1995>

Date

2026-03-26

Data available

2026-04-02

Abstract

La rapida adozione dell’Intelligenza Artificiale agentica ha introdotto un nuovo paradigma di sicurezza in cui i Large Language Models (LLM) non sono più componenti passivi, ma entità autonome capaci di interagire con ambienti esterni. Mentre gli sforzi recenti si sono concentrati principalmente sull’individuazione delle vulnerabilità dei sistemi, è stata dedicata minore attenzione al rilevamento di comportamenti malevoli all’interno di servizi di Intelligenza Artificiale considerati affidabili. Questa tesi di laurea magistrale analizza come comportamenti malevoli possano essere nascosti all’interno di un sistema di Intelligenza Artificiale agentica eludendo gli strumenti di sicurezza. Concentrandosi sull’ecosistema del Model Context Protocol, il lavoro dimostra come attività malevole possano aggirare gli scanner sfruttando la semantica degli strumenti e tecniche di offuscamento. La tesi sviluppa diversi proof-of-concept di Model Context Protocol server, mostrando scenari realistici come tool poisoning e indirect prompt injection, oltre ad una tecnica di evasione. L’efficacia ed i limiti degli attuali scanner di sicurezza per Model Context Protocol vengono valutati empiricamente, evidenziando come i meccanismi di rilevamento falliscano spesso quando il comportamento malevolo è offuscato. I risultati mostrano che la sola scansione di sicurezza non è sufficiente a garantire la sicurezza dei sistemi di Intelligenza Artificiale agentica, poiché comportamenti malevoli possono essere nascosti pur apparendo benigni. Questo lavoro contribuisce a una comprensione più approfondita dell’Intelligenza Artificiale agentica malevola e sottolinea la necessità di modelli di sicurezza sensibili al comportamento e di strategie difensive più robuste.

The rapid adoption of agentic Artificial Intelligence has introduced a new security paradigm in which Large Language Models (LLMs) are no longer passive components but autonomous entities capable of interacting with external environments. While recent efforts have focused on identifying system vulnerabilities, less attention has been paid to detecting malicious behaviors within trusted Artificial Intelligence services. This Master's thesis investigates how malicious behavior can be hidden within an agentic Artificial Intelligence system while evading security tools. Focusing on the Model Context Protocol ecosystem, the work demonstrates how malicious activity can bypass scanners by exploiting tool semantics and obfuscation techniques. The research develops multiple proof-of-concept Model Context Protocol servers, demonstrating real-world scenarios such as tool poisoning and indirect prompt injection alongside an evasion technique. The effectiveness and limitations of current Model Context Protocol security scanners are empirically evaluated, highlighting how detection mechanisms often fail when malicious behavior is obfuscated. The results show that security scanning alone is insufficient to guarantee the safety of agentic Artificial Intelligence systems, as adversarial behaviors can be hidden while appearing benign. This work contributes to a deeper understanding of adversarial agentic Artificial Intelligence and emphasizes the need for behavior-aware security models and more robust defensive strategies.

Type

info:eu-repo/semantics/masterThesis