Runas sintēze latviešu valodā

Saulītis, Krišs

dc.contributor.advisor	Urtāns, Ēvalds
dc.contributor.author	Saulītis, Krišs
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2024-06-20T01:04:34Z
dc.date.available	2024-06-20T01:04:34Z
dc.date.issued	2024
dc.identifier.other	103021
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/66163
dc.description.abstract	Pētījuma mērķis bija izstrādāt augstākas kvalitātes un precizitātes latviešu valodas runas sintēzes modeli, izpētot datu kopas priekšapstrādes un apmācības metodes. Lai to sasniegtu tika veikta eksperimentālā salīdzināšana un izstrādāts jauns runas sintēzes modelis latviešu valodā, izmantojot inovatīvas datu priekšapstrādes un apmācības metodes. Pārbaudot esošās runas sintēzes datu kopas un to priekšapstrādes procedūras, tika sagatavotas un apmācītas datu kopas, kā arī veikts salīdzinājums ar tirgū pieejamiem runas sintēzes rīkiem. Jaunizstrādātais modelis sasniedza augstākas kvalitātes rādītāju nekā citi runas sintēzes rīki - NISQA 5.02 un CER 0.17%. Pētījums norāda, ka kvalitatīvai runas sintēzei ir būtiski veikt rūpīgu datu kopu priekšapstrādi, izmantojot ASR modeļus, uzlabojot balss ierakstu kvalitāti un runātāju balss pārnesi.
dc.description.abstract	The goal of this study was to develop speech synthesis model for the Latvian language that achieves a higher quality and precision. To do this, the study conducted an experimental comparison and the development of a new speech synthesis model for the Latvian language, employing innovative data preprocessing and training methods. Existing speech synthesis datasets and their preprocessing procedures were examined, leading to the preparation and training of a dataset, which was then compared with commercially available speech synthesis tools. The newly developed model achieved higher quality metrics, than other speech synthesis tools, recording a NISQA score of 5.02 and a CER of 0.17%. The research indicates that for high-quality speech synthesis, meticulous preprocessing of datasets is essential, utilizing ASR models to enhance the quality of voice recordings and the transfer of speaker voices.
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātne
dc.subject	runas sintēze
dc.subject	latviešu valoda
dc.subject	dziļā mašīnmācīšanās
dc.subject	balss pārveidošana
dc.subject	runas uzlabošana
dc.title	Runas sintēze latviešu valodā
dc.title.alternative	Speech synthesis in latvian language
dc.type	info:eu-repo/semantics/bachelorThesis

Files in this item

Name:: 302-103021-Saulitis_Kriss_ks18 ...
Size:: 2.879Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5488]

Show simple item record