Pilnīga runas sintēzes modeļa trenēšana latviešu valodai
Author
Baumanis, Rolands
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Darģis, Roberts
Date
2024Metadata
Show full item recordAbstract
Bakalaura darbā tiek izpētītas un aprakstītas dažādas runas sintēzes tehnoloģijas, no kurām padziļināti tiek apskatītas neirona tīklu bāzētās tehnoloģijas un to pilnīgie runas sintēzes modeļi, ņemot vērā pēdējo gadu straujo attīstību mašīnmācīšanās tehnoloģijās. Pilnīgi runas sintēzes modeļi parasti tiek trenēti uz angļu valodas datu kopas un reti tiek trenēti uz citu valodu datiem. Darba laikā tiek veikta pilnīga runas sintēzes modeļa trenēšana uz latviešu valodas audio ierakstiem un tiek izveidots pirmās fāzes StyleTTS 2 runas sintēzes modelis. Otrās fāzes trenēšanas laikā tiek konstatēta kļūda modeļu trenēšanā, pēc kuras tiek uzsākta kļūdas cēloņa noteikšana, kuras laikā tiek atrastas nepilnības runas sintēzes piedāvātā modelī fonēmas līmeņa BERT modelī, kuru ir nepieciešams izveidot latviešu valodai, lai turpinātu StyleTTS 2 runas sintēzes modeļa trenēšanu. In this bachelor thesis different speech synthesis technologies are researched and described of which neural network-based technologies and their complete speech synthesis models are discussed in depth, taking into account the rapid advances in machine learning technologies in recent years. Full speech synthesis models are usually trained on English language datasets and rarely trained on non-English language datasets. In this work we train a full speech synthesis model on Latvian audio recordings and build a first phase StyleTTS 2 speech synthesis model. During the second phase training an error is detected in the model training, after which the determination of the cause of the error is initiated, during which gaps in the proposed model of speech synthesis are found in the phoneme-level BERT model, which needs to be created for Latvian in order to continue training the StyleTTS 2 speech synthesis mode