Rappresentazione dell'evoluzione temporale della ricerca scientifica sulla Sclerosi Multipla con NLP e Machine Learning

View/ Open
Author
Ravelli, Erika <1999>
Date
2024-10-14Data available
2024-10-17Abstract
La crescente mole di dati nella letteratura scientifica rende l’analisi automatica dei testi una sfida fondamentale per molte discipline. Ma quali sono gli strumenti più efficaci per individuare i temi nascosti all’interno di enormi archivi testuali? Questo progetto esplora l’uso delle tecniche di topic modeling nell’analisi di pubblicazioni scientifiche sulla sclerosi multipla, con l’obiettivo di comprendere come gli interessi della ricerca si evolvono nel tempo e identificare le tematiche emergenti che potrebbero richiedere maggiore attenzione in futuro. L’importanza di questa analisi risiede nelle difficoltà ancora presenti nel comprendere i fattori scatenanti e le cause sottostanti di questa complessa patologia neurologica, altamente variabile e imprevedibile. Utilizzando un dataset estratto dalla piattaforma OpenAlex, vengono implementati metodi di document embedding, tra cui l’avanzato modello BERT, seguiti da tecniche di topic modeling, quali LDA, per analizzare gli argomenti trattati e tracciarne l’andamento temporale. Lo studio adotta inoltre le principali tecniche di Natural Language Processing e di Machine Learning, dimostrando che l’uso dei metodi di intelligenza artificiale consente di estrarre i temi centrali all’interno di un corpus specifico della letteratura scientifica e di delinearne un’analisi temporale. The growing volume of data in scientific literature makes automated text analysis a fundamental challenge for many disciplines. But what are the most effective tools for uncovering hidden themes within large text archives? This project explores the use of topic modeling techniques in the analysis of scientific publications on multiple sclerosis, with the goal of understanding how research interests evolve over time and identifying emerging topics that may require greater attention in the future. The importance of this analysis lies in the ongoing challenges of understanding the triggers and underlying causes of this complex, highly variable, and unpredictable neurological disorder. Using a dataset extracted from the OpenAlex platform, document embedding methods, including the advanced BERT model, are implemented, followed by topic modeling techniques such as LDA, to analyze the topics covered and track their temporal trends. The study also adopts leading Natural Language Processing and Machine Learning techniques, demonstrating that the use of artificial intelligence methods allows for the extraction of key themes within a specific corpus of scientific literature and outlines a temporal analysis of these topics.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [5659]