Named Entity Recognition per anonimizzazione e clustering di documenti.
View/ Open
Author
Sacco, Giulia <2000>
Date
2024-12-11Data available
2024-12-19Abstract
Questa tesi esplora l'analisi automatica di documenti utilizzando tecniche di Natural Language Processing (NLP) e Machine Learning. l'applicazione si concentra su un dataset di curricula vitae. Uno degli obiettivi principali è l'estrazione di informazioni attraverso il Named Entity Recognition (NER), una tecnica che identifica e classifica entità denominate come persone, organizzazioni, luoghi, date ed espressioni numeriche. Un aspetto cruciale è stato l'anonimizzazione dei dati sensibili, quali nomi, indirizzi e codici fiscali, per garantire la privacy dei candidati e promuovere una selezione più equa, minimizzando pregiudizi nei processi di reclutamento.
In aggiunta, la tesi si focalizza sul clustering dei curricula tramite l'algoritmo k-means, al fine di ottenere una descrizione significativa dei profili professionali che compongono il dataset. In questa fase il NER è stato utilizzato per estrarre entità come professioni e ragioni sociali che sono state integrate nel processo di clustering per migliorare l'accuratezza delle categorizzazioni.
La tesi è articolata in quattro capitoli: il primo fornisce una base teorica sul supervised learning e sul clustering k-means; il secondo discute le tecniche di rappresentazione del testo, dalle tradizionali rappresentazioni sparse alle moderne tecniche di embedding; il terzo approfondisce i metodi per il NER, dai modelli basati su regole ai più avanzati approcci machine learning; infine, il quarto presenta i risultati delle tecniche di anonimizzazione e clustering ottenuti sul dataset di curricula. This thesis explores the automatic analysis of documents using Natural Language Processing (NLP) and Machine Learning techniques. the application focuses on a dataset of CVs. One of the main objectives is the extraction of information using Named Entity Recognition (NER), a technique that identifies and classifies named entities such as people, organisations, places, dates and numerical expressions. A crucial aspect was the anonymisation of sensitive data, such as names, addresses and tax codes, to ensure the privacy of candidates and promote fairer selection, minimising bias in recruitment processes.
In addition, the thesis focuses on the clustering of CVs using the k-means algorithm in order to obtain a meaningful description of the professional profiles that make up the dataset. At this stage, NER was used to extract entities such as occupations and social reasons that were integrated into the clustering process to improve the accuracy of the categorisations.
The thesis is divided into four chapters: the first provides a theoretical basis on supervised learning and k-means clustering; the second discusses text representation techniques, from traditional sparse representations to modern embedding techniques; the third delves into methods for NER, from rule-based models to more advanced machine learning approaches; finally, the fourth presents the results of anonymisation and clustering techniques obtained on the curriculum dataset.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [4954]