Cluster analysis e Missing data imputation: un caso studio su dataset OECD

View/ Open
Author
Ferrogiaro, Alberto <2000>
Date
2025-03-26Data available
2025-04-03Abstract
Il problema dei dati mancanti è riscontrato in molti settori economici e non, e può essere presente per motivi vari e molto comuni come l’omissione di dati sensibili, malfunzionamento dell’attrezzatura e perdita di file. Nel caso di un dataset non completo tutte le computazioni svolte su di esso potrebbero dare risultati non accurati e biased che potrebbero portare a fare decisioni sbagliate. Tenendo in conto queste considerazioni, questo argomento è stato analizzato in relazione con un metodo per la classificazione dei dati, la cluster analysis. Questo lavoro presenta concetti sia teorici che computazionali. I primi due capitoli saranno teorici, e tratteranno i tipi, le cause e i metodi per entrambi gli argomenti. Questi concetti saranno successivamente oggetto di alcune computazioni e simulazioni effettuati tramite il software R utilizzando un dataset dell’OCSE contenente alcune osservazioni economiche relativi a paesi europei. In queste elaborazioni i cluster sono stati costruiti e le imputazioni eseguite su dati mancanti creati precedentemente. Entrambi gli argomenti sono estremamente vasti dal punto di vista teorico e le computazioni che potrebbero essere svolte sono numerose. Questo lavoro tratterà un buon numero di concetti, ma l’analisi sarà più specifica solo per quelli rilevanti. Questo per fare in modo da fornire una panoramica più completa possibile dei concetti trattati. The problem of missing data can be found in a lot of economic and non-economics fields, and this can happen for various and very common reasons like omission of sensitive data, equipment malfunction and lost files. If a dataset is not complete all the computations applied to it could return inaccurate and biased results which can lead to wrong decision making. Following all these considerations, this topic was analysed in relationship with a data classification method, the cluster analysis. This work presents both theoretical and computational concepts. The first two chapter will be theoretical, concerning the types, causes and the methods of both the topics. These concepts will be then objects of some computations and simulations performed on R software considering an OECD dataset containing some economics observations for European countries. In these computations clusters were built and imputations performed on missing data previously created. Both the topics are enormous from a theorical point of view and the computations that can be performed are plenty. This work will treat a good number of concepts, but the analysis will be more specific only for the most important ones. This was made in order to give a more complete possible overview of the treated concepts.
Type
info:eu-repo/semantics/masterThesisCollections
- Laurea Magistrale [5638]