Università di Genova logo, link al sitoUniRe logo, link alla pagina iniziale
    • English
    • italiano
  • English 
    • English
    • italiano
  • Login
View Item 
  •   DSpace Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • View Item
  •   DSpace Home
  • Tesi
  • Tesi di Laurea
  • Laurea Magistrale
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Metodi e architetture per estrazione di informazione da dati non strutturati in applicazioni di text mining

View/Open
tesi35198836.pdf (871.1Kb)
Author
Oldrini, Edoardo <1995>
Date
2025-10-15
Data available
2025-10-23
Abstract
La tesi offre un duplice contributo allo studio delle rappresentazioni testuali per l’estrazione di informazione da dati non strutturati. Da un lato presenta un’infrastruttura software modulare e configurabile per ingestione dei corpora, tokenizzazione, gestione del vocabolario e calcolo di metriche, con interfacce standardizzate (Document, Corpus, Vocabulary, Metric, Cluster), logging/serializzazione e piena riproducibilità sperimentale, così da favorire studi controllati ed estendibili su modelli eterogenei. Dall’altro, introduce una metodologia formale e indipendente dall’architettura per confrontare spazi di embedding al livello rappresentazionale, basata sulla coerenza dei vicinati semantici e non su benchmark applicativi. Il quadro definisce metriche di divergenza gerarchiche—locale (δᴷ), a livello di token (dᴷ) e globale (Δᴷ)—con penalizzazioni di rango e funzioni di decadimento regolabili, risultando invariante rispetto a dimensionalità e scaling. La validazione sperimentale confronta Word2Vec, GloVe, FastText, BERT e RoBERTa su un vocabolario condiviso di 78.529 termini, usando similarità coseno, vicinati K-NN (K=5) e tre strategie di penalizzazione del rango. I risultati mostrano forte affinità tra Word2Vec e FastText; maggiore distanza di GloVe (formulazione a co-occorrenze); BERT e RoBERTa costituiscono un cluster distinto ma reciprocamente simile.
 
The thesis provides a dual contribution to the study of text representations for information extraction from unstructured data. On one hand, it presents a modular and configurable software infrastructure for corpus ingestion, tokenization, vocabulary management, and metric computation, with standardized interfaces (Document, Corpus, Vocabulary, Metric, Cluster), logging/serialization, and full experimental reproducibility, thus enabling controlled and extensible studies on heterogeneous models. On the other hand, it introduces a formal and architecture-independent methodology for comparing embedding spaces at the representational level, based on the coherence of semantic neighborhoods rather than on downstream benchmarks. The framework defines hierarchical divergence metrics—local (δᴷ), token-level (dᴷ), and global (Δᴷ)—with tunable rank penalties and decay functions, remaining invariant to dimensionality and scaling. The experimental validation compares Word2Vec, GloVe, FastText, BERT, and RoBERTa on a shared vocabulary of 78,529 terms, using cosine similarity, K-NN neighborhoods (K=5), and three rank-penalty strategies. Results show a strong alignment between Word2Vec and FastText; greater divergence for GloVe (co-occurrence formulation); and a distinct yet mutually similar cluster formed by BERT and RoBERTa.
 
Type
info:eu-repo/semantics/masterThesis
Collections
  • Laurea Magistrale [6509]
URI
https://unire.unige.it/handle/123456789/13416
Metadata
Show full item record

UniRe - Università degli studi di Genova | Information and Contacts
 

 

All of DSpaceCommunities & Collections

My Account

Login

UniRe - Università degli studi di Genova | Information and Contacts