Progettazione e sviluppo di procedure ETL in ambito ambientale

Pestarino, Ludovico <2000>

View/Open

tesi32445725.pdf (1.919Mb)

Author

Pestarino, Ludovico <2000>

Date

2025-03-25

Data available

2025-03-27

Abstract

Il presente elaborato descrive il processo di progettazione e sviluppo di pipeline ETL per l’integrazione di dati ambientali all’interno dell’infrastruttura digitale di A.R.P.A.L., l’Agenzia Regionale per la Protezione dell’Ambiente Ligure. Il progetto nasce dall’esigenza di migliorare il livello di integrazione tra i dati interni dell’ente e alcune sorgenti dati esterne, con particolare attenzione ai dati provenienti da OPAS (Open Air System), un sistema nazionale di monitoraggio della qualità dell’aria. Dopo un’analisi dei requisiti e della struttura dei dati esterni, è stata progettata una pipeline ETL automatizzata per estrarre, trasformare e caricare i dati in un database Oracle, adottando standard di qualità e formati compatibili con l’infrastruttura esistente. La pipeline è stata implementata utilizzando Apache Airflow per l’orchestrazione, Docker per la containerizzazione e Python per lo sviluppo delle procedure di elaborazione dei dati. L’implementazione di questa soluzione ha consentito un’integrazione efficiente e scalabile dei dati ambientali, migliorando la qualità e l’accessibilità delle informazioni per l’analisi e la gestione ambientale dell’ente. Inoltre, il codice sviluppato è stato reso disponibile con licenza open source per favorire il riuso in altri contesti della pubblica amministrazione.

This paper describes the design and development process of ETL pipelines for integrating environmental data within the digital infrastructure of A.R.P.A.L., the Regional Agency for Environmental Protection of Liguria. The project arises from the need to improve the level of integration between the agency's internal data and certain external data sources, with particular attention to data from OPAS (Open Air System), a national air quality monitoring system. After analyzing the requirements and the structure of the external data, an automated ETL pipeline was designed to extract, transform, and load the data into an Oracle database, adopting quality standards and formats compatible with the existing infrastructure. The pipeline was implemented using Apache Airflow for orchestration, Docker for containerization, and Python for developing data processing procedures. The implementation of this solution has enabled efficient and scalable integration of environmental data, improving the quality and accessibility of information for the agency's environmental analysis and management. Furthermore, the developed code has been made available under an open-source license to promote reuse in other public administration contexts.

Type

info:eu-repo/semantics/bachelorThesis