Show simple item record

dc.contributor.advisorDarģis, Roberts
dc.contributor.authorBaumanis, Rolands
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2024-06-20T01:04:33Z
dc.date.available2024-06-20T01:04:33Z
dc.date.issued2024
dc.identifier.other103009
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/66159
dc.description.abstractBakalaura darbā tiek izpētītas un aprakstītas dažādas runas sintēzes tehnoloģijas, no kurām padziļināti tiek apskatītas neirona tīklu bāzētās tehnoloģijas un to pilnīgie runas sintēzes modeļi, ņemot vērā pēdējo gadu straujo attīstību mašīnmācīšanās tehnoloģijās. Pilnīgi runas sintēzes modeļi parasti tiek trenēti uz angļu valodas datu kopas un reti tiek trenēti uz citu valodu datiem. Darba laikā tiek veikta pilnīga runas sintēzes modeļa trenēšana uz latviešu valodas audio ierakstiem un tiek izveidots pirmās fāzes StyleTTS 2 runas sintēzes modelis. Otrās fāzes trenēšanas laikā tiek konstatēta kļūda modeļu trenēšanā, pēc kuras tiek uzsākta kļūdas cēloņa noteikšana, kuras laikā tiek atrastas nepilnības runas sintēzes piedāvātā modelī fonēmas līmeņa BERT modelī, kuru ir nepieciešams izveidot latviešu valodai, lai turpinātu StyleTTS 2 runas sintēzes modeļa trenēšanu.
dc.description.abstractIn this bachelor thesis different speech synthesis technologies are researched and described of which neural network-based technologies and their complete speech synthesis models are discussed in depth, taking into account the rapid advances in machine learning technologies in recent years. Full speech synthesis models are usually trained on English language datasets and rarely trained on non-English language datasets. In this work we train a full speech synthesis model on Latvian audio recordings and build a first phase StyleTTS 2 speech synthesis model. During the second phase training an error is detected in the model training, after which the determination of the cause of the error is initiated, during which gaps in the proposed model of speech synthesis are found in the phoneme-level BERT model, which needs to be created for Latvian in order to continue training the StyleTTS 2 speech synthesis mode
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectrunas sintēze
dc.subjectStyleTTS 2
dc.subjectdziļie neironu tīkli
dc.subjectpilnīga runas sintēze
dc.titlePilnīga runas sintēzes modeļa trenēšana latviešu valodai
dc.title.alternativeThe training of end-to-end text-to-speech synthesis model for Latvian language
dc.typeinfo:eu-repo/semantics/bachelorThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record