Metodi di segmentazione: clusterizzazione, classificazione supervisionata e applicazione nel contesto crocieristico
View/ Open
Author
Pollone, Lorenzo <2001>
Date
2025-10-31Data available
2025-11-06Abstract
La presente tesi analizza le tecniche di segmentazione dei clienti nel settore crocieristico, con l’obiettivo di individuare gruppi omogenei e prevedere comportamenti di prenotazione. Dopo un inquadramento teorico sui metodi di apprendimento supervisionato e non supervisionato, sono stati approfonditi i principali algoritmi di clustering (K-Means, DBSCAN, clustering gerarchico e Gaussian Mixture Models) e di classificazione supervisionata (con particolare riferimento alla Random Forest). L’analisi `e stata condotta su un dataset reale di oltre 1.400.000 prenotazioni, comprendente informazioni su nazionalità, destinazione, anticipo di prenotazione, stagione, tariffa, età, tipo di cabina e canale di prenotazione. I dati sono stati opportunamente preprocessati, normalizzati e codificati per rendere le variabili comparabili e gestire valori mancanti e outlier. I risultati della clusterizzazione hanno permesso di identificare gruppi di viaggiatori caratterizzati da comportamenti distinti, come la propensione a prenotare con
largo anticipo o last-minute, mostrando pattern legati a nazionalità, destinazioni preferite e stagionalità. La Random Forest, utilizzando etichette per la variabile anticipo di prenotazione, ha consentito di prevedere con buona accuratezza le categorie di anticipo maggioritarie, evidenziando le variabili più influenti, quali età, tariffa e destinazione. Tuttavia, la scarsa rappresentanza di alcune classi ha limitato la predittività per quei segmenti. L’integrazione di approcci supervisionati e non supervisionati ha dimostrato l’efficacia della segmentazione data-driven nel settore crocieristico, fornendo indicazioni utili per strategie di marketing mirate, personalizzazione dell’offerta e gestione
della domanda. I risultati confermano come l’analisi dei dati comportamentali dei clienti possa supportare decisioni aziendali più informate e migliorare l’efficienza delle strategie commerciali. This thesis analyzes customer segmentation techniques in the cruise industry, with the aim of identifying homogeneous groups and predicting booking behaviors. Following a theoretical overview of supervised and unsupervised learning methods, the main clustering algorithms (K-Means, DBSCAN, hierarchical clustering, and Gaussian Mixture Models) and supervised classification techniques (with particular reference to Random Forest) were explored.
The analysis was conducted on a real dataset of over 1,400,000 bookings, including information on nationality, destination, fare, booking anticipation, season, age, cabin type, and booking channel. The data were appropriately preprocessed, normalized, and encoded to make the variables comparable and to handle missing values and outliers.
The clustering results allowed the identification of traveler groups characterized by distinct behaviors, such as the tendency to book well in advance or at the last minute, showing patterns related to nationality, preferred destinations, and seasonality. The Random Forest model required the creation of labels for the booking anticipation variable in order to predict the main booking categories with good accuracy, highlighting the most influential variables, such as age, fare, and destination. However, the low representation of some classes limited predictivity for those segments.
From a managerial perspective, the analyses conducted provide concrete insights for companies in the tourism and cruise sectors: understanding booking behaviors enables the personalization of offers, optimization of communication strategies, and improvement of customer loyalty. In the future, integrating machine learning methods with customer relationship management (CRM) data could further enhance predictive and segmentation capabilities. In conclusion, the thesis demonstrated that combining supervised and unsupervised approaches represents an effective solution for understanding customer behaviors.
Type
info:eu-repo/semantics/bachelorThesisCollections
- Laurea Triennale [4018]

