Metodi e architetture per estrazione di informazione da dati non strutturati in applicazioni di text mining
View/ Open
Author
Oldrini, Edoardo <1995>
Date
2025-10-15Data available
2025-10-23Abstract
La tesi offre un duplice contributo allo studio delle rappresentazioni testuali per l’estrazione di informazione da dati non strutturati. Da un lato presenta un’infrastruttura software modulare e configurabile per ingestione dei corpora, tokenizzazione, gestione del vocabolario e calcolo di metriche, con interfacce standardizzate (Document, Corpus, Vocabulary, Metric, Cluster), logging/serializzazione e piena riproducibilità sperimentale, così da favorire studi controllati ed estendibili su modelli eterogenei.
Dall’altro, introduce una metodologia formale e indipendente dall’architettura per confrontare spazi di embedding al livello rappresentazionale, basata sulla coerenza dei vicinati semantici e non su benchmark applicativi. Il quadro definisce metriche di divergenza gerarchiche—locale (δᴷ), a livello di token (dᴷ) e globale (Δᴷ)—con penalizzazioni di rango e funzioni di decadimento regolabili, risultando invariante rispetto a dimensionalità e scaling.
La validazione sperimentale confronta Word2Vec, GloVe, FastText, BERT e RoBERTa su un vocabolario condiviso di 78.529 termini, usando similarità coseno, vicinati K-NN (K=5) e tre strategie di penalizzazione del rango. I risultati mostrano forte affinità tra Word2Vec e FastText; maggiore distanza di GloVe (formulazione a co-occorrenze); BERT e RoBERTa costituiscono un cluster distinto ma reciprocamente simile. The thesis provides a dual contribution to the study of text representations for information extraction from unstructured data. On one hand, it presents a modular and configurable software infrastructure for corpus ingestion, tokenization, vocabulary management, and metric computation, with standardized interfaces (Document, Corpus, Vocabulary, Metric, Cluster), logging/serialization, and full experimental reproducibility, thus enabling controlled and extensible studies on heterogeneous models.
On the other hand, it introduces a formal and architecture-independent methodology for comparing embedding spaces at the representational level, based on the coherence of semantic neighborhoods rather than on downstream benchmarks. The framework defines hierarchical divergence metrics—local (δᴷ), token-level (dᴷ), and global (Δᴷ)—with tunable rank penalties and decay functions, remaining invariant to dimensionality and scaling.
The experimental validation compares Word2Vec, GloVe, FastText, BERT, and RoBERTa on a shared vocabulary of 78,529 terms, using cosine similarity, K-NN neighborhoods (K=5), and three rank-penalty strategies. Results show a strong alignment between Word2Vec and FastText; greater divergence for GloVe (co-occurrence formulation); and a distinct yet mutually similar cluster formed by BERT and RoBERTa.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [6509]

