Mašīnmācīšanās darbplūsmas izstrāde klasifikācijas modeļu ģenerēšanai un biomarķieru identifikācijai, izmantojot zarnu mikrobioma datus un metadatus
Autor
Grausa, Kristīna
Co-author
Latvijas Universitāte. Bioloģijas fakultāte
Advisor
Vilne, Baiba
Datum
2024Metadata
Zur LanganzeigeZusammenfassung
Darba mērķis bija izstrādāt mašīnmācīšanās darbplūsmu, kas spēj ģenerēt, salīdzināt un interpretēt klasifikācijas modeļus, izmantojot zarnu mikrobioma datus un saistītos metadatus. Darba ietvaros tika izstrādāta Python darbplūsma binārās un vairāku klašu klasifikācijas uzdevumu veikšanai. Darbplūsma ietvēra datu analīzes un priekšapstrādes soļus, pazīmju atlasi, hiperparametru optimizāciju, šķērsvalidāciju un modeļu interpretāciju. Viegli interpretējamie koku bāzes klasifikatori tika izmantoti potenciālo biomarķieru identifikācijai. Tika izmantoti 10 klasifikācijas algoritmi, no kuriem labākais mikrobioma datu modelis bija daudzslāņu preceptrons (AUC=0.73±0.02), un labākais metadatu modelis bija Elastic Net loģistiskās regresijas (AUC=0.76±0.01). Darbplūsma pieejama GitHub platformā: https://github.com/NebulaKit/BioFlowML The aim of this work was to develop a machine learning workflow capable of generating, comparing, and interpreting classification models using gut microbiome data and associated metadata. A Python workflow was developed for performing binary and multi-class classification tasks. The workflow included steps for data analysis and preprocessing, feature selection, hyperparameter optimization, cross-validation, and model interpretation. Easily interpretable tree-based classifiers were used for the identification of potential biomarkers. Ten classification algorithms were used, with the best microbiome data model being the multilayer perceptron (AUC=0.73±0.02), and the best metadata model being Elastic Net logistic regression (AUC=0.76±0.01). The workflow is available on GitHub: https://github.com/NebulaKit/BioFlowML