dc.contributor.advisorGiacomini, Mauro <1963>
dc.contributor.authorCappello, Alice <1998>
dc.contributor.otherDaniele Roberto Giacobbe
dc.contributor.otherSara Mora
dc.description.abstractQuesta tesi si propone di progettare, definire e verificare una pipeline di pre-elaborazione per note cliniche scritte in lingua italiana. Con l’aumentare della mole dei dati prodotti, specialmente di tipo non strutturato, si è dimostrato sempre più importante lo sviluppo di strumenti implementabili al fine di gestire automaticamente le forme di dato prive una struttura definita, senza la necessità di supervisione esterna. Questa tesi si occupa della gestione di testo libero, riguardante un contesto medico specifico, quali le note cliniche scritte da medici riguardanti pazienti in terapia intensiva nel reparto Malattie Infettive e Tropicali dell’IRCCS Ospedale Policlinico San Martino di Genova. La pipeline è stata sviluppata nell'ambito del progetto MULTI-SITA, una nuova piattaforma sviluppata dalla Società Italiana di Terapia Antinfettiva (SITA) e dedicata alla realizzazione di studi osservazionali sulle malattie batteriche e fungine invasive, tuttavia, mostra una struttura flessibile che può adattarsi a una grande varietà di dati in forma di testo libero scritti in lingua italiana. Il compito del modello sviluppato è quello di eseguire una pre-elaborazione delle note, step fondamentale per l’applicazione di successive tecniche di Natural Language Processing, quali la feature extraction e la text classification. La pipeline si snoda in sei step fondamentali: la rimozione dei simboli superflui, la tokenizzazione (ovvero la riduzione del testo iniziale alle sue unità fondamentali), la correzione degli errori ortografici, l’estensione delle abbreviazioni e la gestione dei nomi dei farmaci. Il test della pipeline è stato eseguito su un totale di 53500 parole, ottenendo, tra le altre metriche, una sensibilità del 95%. La pipeline si è rivelata adeguata al compito prefissatosi, mostrando delle buone performance nel settore peculiare delle note pre-elaborate senza perdita di generalità.it_IT
dc.description.abstractThis thesis aims to design, define and verify a pre-processing pipeline for clinical notes written in Italian. As the amount of data produced, especially unstructured data, increases, the development of implementable tools in order to automatically manage data forms lacking a defined structure, without the need for external supervision, has proven increasingly important. This thesis deals with the management of free text, concerning a specific medical context, such as clinical notes written by physicians regarding patients in intensive care in the Infectious and Tropical Diseases Department of the IRCCS Ospedale Policlinico San Martino in Genoa. The pipeline was developed as part of the MULTI-SITA project, a new platform developed by the Italian Society of Infectious Therapy (SITA) and dedicated to the realization of observational studies on invasive bacterial and fungal diseases, however, it shows a flexible structure that can adapt to a wide variety of data in free text form written in the Italian language. The task of the developed model is to perform pre-processing of the notes, a key step for the application of subsequent Natural Language Processing techniques, such as feature extraction and text classification. The pipeline consists of six basic steps: removal of superfluous symbols, tokenization (i.e., reduction of the initial text to its basic units), correction of spelling errors, extension of abbreviations, and management of drug names. The pipeline test was performed on a total of 53500 words, achieving, among other metrics, a sensitivity of 95 percent. The pipeline proved adequate to the task set, showing good performance in the peculiar area of preprocessed notes without loss of generalityen_UK
dc.titleProgettazione, definizione e verifica di una pipeline di pre-elaborazione di note cliniche in italianoit_IT
dc.title.alternativeDesign, definition and verification of a clinical note pre-processing pipeline in Italianen_UK
dc.publisher.nameUniversità degli studi di Genova
dc.description.corsolaurea11159 - BIOENGINEERING
dc.description.area9 - INGEGNERIA

