Descrivere il panorama della ricerca scientifica attraverso il Machine Learning e la visualizzazione dati. Due casi esemplari: la Sclerosi Multipla e il Morbo di Alzheimer
Mostra/ Apri
Autore
Ratto, Giulia <1999>
Data
2023-10-18Disponibile dal
2023-10-26Abstract
Quali sono le potenzialità degli odierni strumenti di Machine Learning nel campo della Science of Science? Come l’intelligenza artificiale può aiutare medici, ricercatori e pazienti a trovare gli articoli che rispondono maggiormente alle loro richieste? Possono i più comuni e semplici algoritmi di Topic Modeling trovare i temi più importanti all’interno di testi scientifici e biomedicali complessi? Questo studio si propone come un primo step per cercare di rispondere a queste domande. In particolare, questo lavoro fa data exploration e studia un database di letteratura scientifica nato nel 2021 chiamato OpenAlex attraverso l’analisi e la classificazione dei testi che trattano due tra le patologie neurologiche cronico-degenerative più note al mondo: la sclerosi multipla ed il morbo di Alzheimer. Si parte dunque con lo studio dei principali topic individuati da OpenAlex e si applicano algoritmi di clustering e di Topic Modeling per capire la capacità di classificazione testuale delle più note tecniche di ML. Questo studio mostra l’efficacia di alcune tecniche di embedding nella rappresentazione di testi scientifici e evidenzia come i metodi di ML odierni possano catturare il panorama della ricerca scientifica. Tale progetto rappresenta un primo passo di un lavoro più ampio destinato alla pubblicazione sulla rivista «Journal of Infometrics». What are the potentials of today's Machine Learning tools in the Science of Science field? How can Artificial Intelligence help physicians, researchers and patients find the articles that best respond to their requests? Can the most common and simple Topic Modeling algorithms find the most important topics within complex scientific and biomedical texts? This study is intended as a first step to try to answer these questions. In particular, this work carries data exploration out and studies a scientific literature database created in 2021 called OpenAlex through the analysis and classification of texts that deal with two of the most well-known chronic-degenerative neurological diseases in the world: multiple sclerosis and Alzheimer's disease. We therefore start with the study of the main topics identified by OpenAlex and apply clustering and topic modeling algorithms to understand the text classification capacity of the most well-known ML techniques. This study shows the effectiveness of some embedding techniques in the representation of scientific texts and highlights how today's ML methods can capture the landscape of scientific research. This project represents a first step in a broader work intended for publication in the journal «Journal of Infometrics».
Tipo
info:eu-repo/semantics/masterThesisCollezioni
- Laurea Magistrale [5076]