Applicazione dei processi di Dirichlet a dati di sequenziamento di DNA
View/ Open
Author
Commodaro, Camilla <2001>
Date
2023-12-04Data available
2023-12-07Abstract
Si vuole definire il modello statistico su cui si basa la procedura di PyClone utilizzata in ambito biomedico per lo studio della struttura dei tumori. La procedura ha l’obiettivo di effettuare un clustering delle mutazioni del genoma ottenute da sequenziamento di DNA, rispetto al valore di prevalenza cellulare senza conoscere il numero di cluster a priori. Sono quindi utilizzati i processi di Dirichlet. L’impiego dei Dirichlet Process in problemi di clustering prende il nome di Dirichlet Process Mixture Model.
Per poter definire il modello di PyClone è quindi presentata una breve introduzione biologica per spiegare il materiale genetico e come si sviluppa un tumore. Sono poi esposti tutti i concetti matematico-statistici necessari alla definizione completa di Dirichlet Process Mixture Model, quali un’introduzione alla statistica bayesiana, la distribuzione beta e la sua generalizzazione a quella di Dirichlet, il Dirichlet Process, di cui si garantisce l’esistenza tramite il teorema di estensione di Kolmogorov, e le sue tre metafore, “Stick-breaking Process”, “Pólya Urn Process” e “Chinese Restaurant Process”. È inoltre enunciato il teorema di De Finetti utilizzato per la scrittura del modello di PyClone.
Dopo averne descritto il procedimento è infine definito il modello di PyClone. The purpose is to define the statistical model on which PyClone is based. PyClone is a procedure used in biomedical field to study the structure of tumors. The procedure aims to cluster genomic mutations obtained with DNA sequencing, with respect to the value of cellular prevalence, without knowing the number of clusters. Dirichlet Process are then used. The use of Dirichlet Process in clustering problems is referred to as Dirichlet Process Mixture Model.
In order to define PyClone’s model a brief biological introduction is done to explain genetic material and the how a tumor develops. Then all the statistical-mathematical concepts needed for a complete definition of Dirichlet Process Mixture Model are shown, such as an introduction to Bayesian statistics, the Beta Distribution and its generalization the Dirichlet Distribution, The Dirichlet Process, the Kolmogorov Extension Theorem which guarantee its existence and three metaphors to visualize it which are “Stick-breaking Process”, “Pólya Urn Process” e “Chinese Restaurant Process”. Lastly, De Finetti’s theorem is enunciated, it is used for PyClone definition.
It is then defined PyClone’s model after having described its procedure.
Type
info:eu-repo/semantics/bachelorThesisCollections
- Laurea Triennale [1736]