Come i Modelli Linguistici di grandi dimensioni stanno rivoluzionando il reverse engineering dei binari

Giannini, Matteo <2001>

View/Open

tesi35178846.pdf (1.276Mb)

Author

Giannini, Matteo <2001>

Date

2025-10-15

Data available

2025-10-23

Abstract

L’ingegneria inversa binaria è una disciplina fondamentale della cybersicurezza, utilizzata per analizzare il software senza avere accesso al suo codice sorgente al fine di individuare vulnerabilità. La complessità di questo compito, aggravata dalla perdita di informazioni che avviene durante la compilazione, lo rende fortemente dipendente dall’esperienza dell’analista. Questa tesi esplora il potenziale dei Large Language Models (LLMs) nel supportare e ottimizzare tale processo, concentrandosi sulla loro integrazione con il framework Ghidra. Il lavoro valuta l’efficacia dei LLMs attraverso tre metodologie di integrazione progressive: un’analisi manuale del codice decompilato, un flusso di lavoro assistito da plugin e un approccio avanzato basato sul Model Context Protocol (MCP). All’interno di quest’ultimo ambito, la tesi presenta un contributo pratico originale allo sviluppo del plugin GhidraMCP. Gli approcci sono stati validati sperimentalmente su binari reali, confrontando le prestazioni di diversi modelli LLM. I risultati mettono in evidenza i punti di forza e le limitazioni di ciascuna strategia di integrazione, dimostrando come protocolli avanzati come MCP possano trasformare i LLMs in collaboratori efficaci nel campo dell’ingegneria inversa.

Binary reverse engineering is a critical discipline in cybersecurity for analyzing software without access to its source code to identify vulnerabilities. The complexity of this task, which is exacerbated by information loss during compilation, makes it heavily reliant on the analyst’s expertise. This thesis explores the potential of Large Language Models (LLMs) to assist and optimize this process, focusing on their integration with the Ghidra frame- work. The work evaluates the effectiveness of LLMs through three progressive integration methodologies: a manual analysis of decompiled code, a plugin-assisted workflow and an advanced approach based on the Model Context Protocol (MCP). Within this latter scope, the thesis presents an original practical contribution to the development of the GhidraMCP plugin. The approaches were experimentally validated on real-world binaries by comparing the performance of different LLM models. The results highlight the strengths and limi- tations of each integration strategy, demonstrating how advanced protocols like MCP can transform LLMs into effective collaborators in the reverse engineering field.

Type

info:eu-repo/semantics/masterThesis