Mostra i principali dati dell'item

dc.contributor.advisorZunino, Rodolfo <1961>
dc.contributor.authorOldrini, Edoardo <1995>
dc.date.accessioned2025-10-23T14:34:01Z
dc.date.available2025-10-23T14:34:01Z
dc.date.issued2025-10-15
dc.identifier.urihttps://unire.unige.it/handle/123456789/13416
dc.description.abstractLa tesi offre un duplice contributo allo studio delle rappresentazioni testuali per l’estrazione di informazione da dati non strutturati. Da un lato presenta un’infrastruttura software modulare e configurabile per ingestione dei corpora, tokenizzazione, gestione del vocabolario e calcolo di metriche, con interfacce standardizzate (Document, Corpus, Vocabulary, Metric, Cluster), logging/serializzazione e piena riproducibilità sperimentale, così da favorire studi controllati ed estendibili su modelli eterogenei. Dall’altro, introduce una metodologia formale e indipendente dall’architettura per confrontare spazi di embedding al livello rappresentazionale, basata sulla coerenza dei vicinati semantici e non su benchmark applicativi. Il quadro definisce metriche di divergenza gerarchiche—locale (δᴷ), a livello di token (dᴷ) e globale (Δᴷ)—con penalizzazioni di rango e funzioni di decadimento regolabili, risultando invariante rispetto a dimensionalità e scaling. La validazione sperimentale confronta Word2Vec, GloVe, FastText, BERT e RoBERTa su un vocabolario condiviso di 78.529 termini, usando similarità coseno, vicinati K-NN (K=5) e tre strategie di penalizzazione del rango. I risultati mostrano forte affinità tra Word2Vec e FastText; maggiore distanza di GloVe (formulazione a co-occorrenze); BERT e RoBERTa costituiscono un cluster distinto ma reciprocamente simile.it_IT
dc.description.abstractThe thesis provides a dual contribution to the study of text representations for information extraction from unstructured data. On one hand, it presents a modular and configurable software infrastructure for corpus ingestion, tokenization, vocabulary management, and metric computation, with standardized interfaces (Document, Corpus, Vocabulary, Metric, Cluster), logging/serialization, and full experimental reproducibility, thus enabling controlled and extensible studies on heterogeneous models. On the other hand, it introduces a formal and architecture-independent methodology for comparing embedding spaces at the representational level, based on the coherence of semantic neighborhoods rather than on downstream benchmarks. The framework defines hierarchical divergence metrics—local (δᴷ), token-level (dᴷ), and global (Δᴷ)—with tunable rank penalties and decay functions, remaining invariant to dimensionality and scaling. The experimental validation compares Word2Vec, GloVe, FastText, BERT, and RoBERTa on a shared vocabulary of 78,529 terms, using cosine similarity, K-NN neighborhoods (K=5), and three rank-penalty strategies. Results show a strong alignment between Word2Vec and FastText; greater divergence for GloVe (co-occurrence formulation); and a distinct yet mutually similar cluster formed by BERT and RoBERTa.en_UK
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/closedAccess
dc.titleMetodi e architetture per estrazione di informazione da dati non strutturati in applicazioni di text miningit_IT
dc.title.alternativeMethods and architectures for Information Extraction from Unstructured Data in Text Mining Applicationsen_UK
dc.typeinfo:eu-repo/semantics/masterThesis
dc.subject.miurING-INF/01 - ELETTRONICA
dc.publisher.nameUniversità degli studi di Genova
dc.date.academicyear2024/2025
dc.description.corsolaurea11160 - COMPUTER ENGINEERING
dc.description.area9 - INGEGNERIA
dc.description.department100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI


Files in questo item

Questo item appare nelle seguenti collezioni

Mostra i principali dati dell'item