Mostra i principali dati dell'item
Dalla mancanza di dati alla previsione: modellazione basata su alberi per dati clinici categorici incompleti
| dc.contributor.advisor | Rapallo, Fabio <1976> | |
| dc.contributor.author | Crovetto, Jacopo <2000> | |
| dc.date.accessioned | 2026-03-26T14:23:52Z | |
| dc.date.available | 2026-03-26T14:23:52Z | |
| dc.date.issued | 2026-03-23 | |
| dc.identifier.uri | https://unire.unige.it/handle/123456789/15184 | |
| dc.description.abstract | Questa tesi affronta il problema dei dati mancanti con un focus specifico sulle variabili categoriche, combinando un quadro teorico con un caso di studio applicato. Dopo aver introdotto alcune delle principali proprietà statistiche dei dati categorici e le distribuzioni associate, il lavoro sposta l’attenzione sui meccanismi di mancanza dei dati (MCAR, MAR, NMAR) e discute l’assunzione di ignorabilità nel contesto dell’imputazione. Vengono analizzati i limiti dei metodi tradizionali list-wise e pair-wise. I metodi di imputazione singola, come l’imputazione per moda, l’imputazione tramite GLM e l’hot-deck, sono mostrati come sistematicamente inclini a sottostimare la variabilità delle stime. L’imputazione multipla, implementata attraverso MICE, viene presentata come un’alternativa solida, capace di riflettere la reale incertezza del processo di imputazione mediante l’uso delle regole di Rubin. Successivamente, la tesi esplora l’impiego di metodi non parametrici basati su alberi decisionali, sia come strumenti predittivi sia come tecniche di imputazione. Infine, uno studio Monte Carlo su un dataset clinico valuta le prestazioni di diversi metodi di imputazione al variare dei livelli e dei meccanismi di mancanza dei dati. I risultati suggeriscono che, nello specifico contesto del dataset analizzato, l’imputazione tramite random forest si è dimostrata la più efficace nella previsione della classe positiva e ha sistematicamente prodotto gli alberi di classificazione con le migliori prestazioni. | it_IT |
| dc.description.abstract | This thesis addresses the problem of missing data with a specific focus on categorical variables, combining a theoretical framework with an applied case study. After introducing some of the main statistical properties of categorical data, and the associated distributions, the work shifts its focus on missing-data mechanisms (MCAR, MAR, NMAR) and discusses the ignorability assumption in the context of imputation. The flaws of traditional list-wise and pair-wise methods are addressed. Single imputation methods such as mode imputation, generalized linear models imputation, and hot-deck imputation are shown to systematically underestimate variability of estimates. Multiple imputation, implemented through MICE, is presented as a sound alternative capable of reflecting the true uncertainty of the imputation process through the use of Rubin’s rules. Then, the thesis explores the use of nonparametric tree-based methods, both as predictive tools and as imputation methods. Finally, a Monte Carlo study on a clinical dataset evaluates the performance of various imputation methods under varying missingness levels and mechanisms. Findings suggest that, in the specific context of the dataset, random forest imputation was the most effective at predicting the positive class, and consistently produced the best-performing classification trees. | en_UK |
| dc.language.iso | en | |
| dc.rights | info:eu-repo/semantics/restrictedAccess | |
| dc.title | Dalla mancanza di dati alla previsione: modellazione basata su alberi per dati clinici categorici incompleti | it_IT |
| dc.title.alternative | From Missingness to Prediction: Tree-Based Modeling of Incomplete Categorical Clinical Data | en_UK |
| dc.type | info:eu-repo/semantics/masterThesis | |
| dc.subject.miur | SECS-S/01 - STATISTICA | |
| dc.publisher.name | Università degli studi di Genova | |
| dc.date.academicyear | 2024/2025 | |
| dc.description.corsolaurea | 11267 - ECONOMICS AND DATA SCIENCE | |
| dc.description.area | 28 - ECONOMIA | |
| dc.description.department | 100012 - DIPARTIMENTO DI ECONOMIA |
Files in questo item
Questo item appare nelle seguenti collezioni
-
Laurea Magistrale [7402]

