Mostra i principali dati dell'item
Metodi e architetture per estrazione di informazione da dati non strutturati in applicazioni di text mining
| dc.contributor.advisor | Zunino, Rodolfo <1961> | |
| dc.contributor.author | Oldrini, Edoardo <1995> | |
| dc.date.accessioned | 2025-10-23T14:34:01Z | |
| dc.date.available | 2025-10-23T14:34:01Z | |
| dc.date.issued | 2025-10-15 | |
| dc.identifier.uri | https://unire.unige.it/handle/123456789/13416 | |
| dc.description.abstract | La tesi offre un duplice contributo allo studio delle rappresentazioni testuali per l’estrazione di informazione da dati non strutturati. Da un lato presenta un’infrastruttura software modulare e configurabile per ingestione dei corpora, tokenizzazione, gestione del vocabolario e calcolo di metriche, con interfacce standardizzate (Document, Corpus, Vocabulary, Metric, Cluster), logging/serializzazione e piena riproducibilità sperimentale, così da favorire studi controllati ed estendibili su modelli eterogenei. Dall’altro, introduce una metodologia formale e indipendente dall’architettura per confrontare spazi di embedding al livello rappresentazionale, basata sulla coerenza dei vicinati semantici e non su benchmark applicativi. Il quadro definisce metriche di divergenza gerarchiche—locale (δᴷ), a livello di token (dᴷ) e globale (Δᴷ)—con penalizzazioni di rango e funzioni di decadimento regolabili, risultando invariante rispetto a dimensionalità e scaling. La validazione sperimentale confronta Word2Vec, GloVe, FastText, BERT e RoBERTa su un vocabolario condiviso di 78.529 termini, usando similarità coseno, vicinati K-NN (K=5) e tre strategie di penalizzazione del rango. I risultati mostrano forte affinità tra Word2Vec e FastText; maggiore distanza di GloVe (formulazione a co-occorrenze); BERT e RoBERTa costituiscono un cluster distinto ma reciprocamente simile. | it_IT |
| dc.description.abstract | The thesis provides a dual contribution to the study of text representations for information extraction from unstructured data. On one hand, it presents a modular and configurable software infrastructure for corpus ingestion, tokenization, vocabulary management, and metric computation, with standardized interfaces (Document, Corpus, Vocabulary, Metric, Cluster), logging/serialization, and full experimental reproducibility, thus enabling controlled and extensible studies on heterogeneous models. On the other hand, it introduces a formal and architecture-independent methodology for comparing embedding spaces at the representational level, based on the coherence of semantic neighborhoods rather than on downstream benchmarks. The framework defines hierarchical divergence metrics—local (δᴷ), token-level (dᴷ), and global (Δᴷ)—with tunable rank penalties and decay functions, remaining invariant to dimensionality and scaling. The experimental validation compares Word2Vec, GloVe, FastText, BERT, and RoBERTa on a shared vocabulary of 78,529 terms, using cosine similarity, K-NN neighborhoods (K=5), and three rank-penalty strategies. Results show a strong alignment between Word2Vec and FastText; greater divergence for GloVe (co-occurrence formulation); and a distinct yet mutually similar cluster formed by BERT and RoBERTa. | en_UK |
| dc.language.iso | en | |
| dc.rights | info:eu-repo/semantics/closedAccess | |
| dc.title | Metodi e architetture per estrazione di informazione da dati non strutturati in applicazioni di text mining | it_IT |
| dc.title.alternative | Methods and architectures for Information Extraction from Unstructured Data in Text Mining Applications | en_UK |
| dc.type | info:eu-repo/semantics/masterThesis | |
| dc.subject.miur | ING-INF/01 - ELETTRONICA | |
| dc.publisher.name | Università degli studi di Genova | |
| dc.date.academicyear | 2024/2025 | |
| dc.description.corsolaurea | 11160 - COMPUTER ENGINEERING | |
| dc.description.area | 9 - INGEGNERIA | |
| dc.description.department | 100023 - DIPARTIMENTO DI INFORMATICA, BIOINGEGNERIA, ROBOTICA E INGEGNERIA DEI SISTEMI |
Files in questo item
Questo item appare nelle seguenti collezioni
-
Laurea Magistrale [6509]

