Applicazione della regressione logistica per la classificazione degli incidenti mortali in Liguria
View/ Open
Author
Morrone, Ludovica <2002>
Date
2024-03-25Data available
2024-03-28Abstract
L'elaborato tratta l'argomento dell'incidentalità stradale in Liguria , con particolare interesse all’identificazione dei fattori principali che contribuiscono agli incidenti mortali, intesi come quelli in cui si registra almeno un decesso entro un periodo di 24 ore o entro 30 giorni dall'evento.
I dati considerati sono riferiti all'anno 2021.
Sono state condotte delle analisi descrittive, con lo scopo di esaminare le situazioni che caratterizzano gli incidenti stradali. Inizialmente, vengono considerati tutti gli incidenti registrati, e successivamente, ci si concentra specificamente su quelli mortali.
L'obiettivo principale della ricerca è classificare, tramite un modello logistico, gli incidenti stradali in base al loro esito, distinguendo tra incidenti mortali e non mortali. Essendo gli incidenti mortali solo lo 0,86% del totale, il modello tende a mostrare una bassa precisione nella predizione di questa classe. Per affrontare questa sfida, vengono impiegate diverse tecniche, come l'undersampling, l'oversampling, il Synthetic Minority Over-Sampling Technique (SMOTE), la Recursive Feature Elimination e il Threshold Moving, al fine di migliorare le prestazioni.
Una volta stabilita la tecnica migliore, si integrano le informazioni delle georeferenziazione (latitudine e longitudine). Si procede tramite due approcci principali: si inseriscono nel modello le coordinate geografiche come features polinomiali o si incorpora uno score di rischio predetto per ogni posizione geografica. The paper addresses the topic of road accidents in Liguria, with particular focus on identifying the main factors contributing to fatal incidents, defined as those resulting in at least one death within 24 hours or within 30 days of the event. The data considered are for the year 2021.
Descriptive analyses have been conducted to examine the situations characterizing road accidents. Initially, all recorded incidents are considered, and subsequently, the focus shifts specifically to fatal incidents.
The main objective of the research is to classify road accidents, using a logistic model, based on their outcome, distinguishing between fatal and non-fatal incidents. Given that fatal incidents represent only 0.86% of the total, the model tends to exhibit low precision in predicting this class. To address this challenge, various techniques are employed, such as undersampling, oversampling, Synthetic Minority Over-Sampling Technique (SMOTE), Recursive Feature Elimination, and Threshold Moving, in order to improve performance.
Once the best technique has been determined, georeferencing information (latitude and longitude) is integrated. This is carried out through two main approaches: incorporating geographic coordinates into the model as polynomial features, or incorporating a predicted risk score for each geographical position.
Type
info:eu-repo/semantics/bachelorThesisCollections
- Laurea Triennale [2447]