Runas sintēze latviešu valodā
Author
Saulītis, Krišs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Urtāns, Ēvalds
Date
2024Metadata
Show full item recordAbstract
Pētījuma mērķis bija izstrādāt augstākas kvalitātes un precizitātes latviešu valodas runas sintēzes modeli, izpētot datu kopas priekšapstrādes un apmācības metodes. Lai to sasniegtu tika veikta eksperimentālā salīdzināšana un izstrādāts jauns runas sintēzes modelis latviešu valodā, izmantojot inovatīvas datu priekšapstrādes un apmācības metodes. Pārbaudot esošās runas sintēzes datu kopas un to priekšapstrādes procedūras, tika sagatavotas un apmācītas datu kopas, kā arī veikts salīdzinājums ar tirgū pieejamiem runas sintēzes rīkiem. Jaunizstrādātais modelis sasniedza augstākas kvalitātes rādītāju nekā citi runas sintēzes rīki - NISQA 5.02 un CER 0.17%. Pētījums norāda, ka kvalitatīvai runas sintēzei ir būtiski veikt rūpīgu datu kopu priekšapstrādi, izmantojot ASR modeļus, uzlabojot balss ierakstu kvalitāti un runātāju balss pārnesi. The goal of this study was to develop speech synthesis model for the Latvian language that achieves a higher quality and precision. To do this, the study conducted an experimental comparison and the development of a new speech synthesis model for the Latvian language, employing innovative data preprocessing and training methods. Existing speech synthesis datasets and their preprocessing procedures were examined, leading to the preparation and training of a dataset, which was then compared with commercially available speech synthesis tools. The newly developed model achieved higher quality metrics, than other speech synthesis tools, recording a NISQA score of 5.02 and a CER of 0.17%. The research indicates that for high-quality speech synthesis, meticulous preprocessing of datasets is essential, utilizing ASR models to enhance the quality of voice recordings and the transfer of speaker voices.