Datu kvalitātes definēšana un novērtēšana
Author
Ņikiforova, Anastasija
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bičevska, Zane
Bičevskis, Jānis
Date
2020Metadata
Show full item recordAbstract
Darbā tiek piedāvāta jauna pieeja datu kvalitātes problēmas risināšanai. Pieejas pamatā ir 3 komponenti: datu objekts, kvalitātes prasības un process kvalitātes novērtēšanai. To aprakstīšanai tiek piedāvātas 3 grafiskās DSL, kuras ir pietiekami vienkāršas, lai tās varētu lietot ne-IT speciālisti. Ir nodrošināta datu kvalitātes pārbaude atkarībā no datu lietojuma, kontekstuālā pārbaude vairāku datu objektu ietvaros, kā arī ir piedāvāta pieejas formalizācija daļēji formālas datu kvalitātes teorijas izveidei. Piedāvātā pieeja ļauj analizēt “ārējo” datu kopu kvalitāti, nodrošinot iespēju analizēt atvērtus datus. Tā ir pielietota 30 atvērto datu kopām, atklājot tajās kvalitātes problēmas, tādejādi apliecinot piedāvātās pieejas priekšrocības. Atslēgvārdi: datu kvalitāte, datu objekts, datu kvalitātes novērtēšana The thesis proposes a new data object-driven approach to evaluate data quality. The approach is based on 3 main components: data object, data quality requirements and the process of data quality measuring. These components are defined by 3 graphical DSLs, that are easy enough even for non-IT experts. The approach ensures data quality analysis depending on the use-case, contextual analysis within several data objects. The formalization of the approach for partially formalised theory of data quality is proposed as well as well. Developed approach allows analysing quality of “third-party” data. The proposed solution is applied to 30 open data sets, detecting multiple data quality issues, thus demonstrating the advantages of the proposed approach. Keywords: data object, data quality, dimension, data quality evaluation