Pilnīga runas sintēzes modeļa trenēšana latviešu valodai

Baumanis, Rolands

dc.contributor.advisor	Darģis, Roberts
dc.contributor.author	Baumanis, Rolands
dc.contributor.other	Latvijas Universitāte. Datorikas fakultāte
dc.date.accessioned	2024-06-20T01:04:33Z
dc.date.available	2024-06-20T01:04:33Z
dc.date.issued	2024
dc.identifier.other	103009
dc.identifier.uri	https://dspace.lu.lv/dspace/handle/7/66159
dc.description.abstract	Bakalaura darbā tiek izpētītas un aprakstītas dažādas runas sintēzes tehnoloģijas, no kurām padziļināti tiek apskatītas neirona tīklu bāzētās tehnoloģijas un to pilnīgie runas sintēzes modeļi, ņemot vērā pēdējo gadu straujo attīstību mašīnmācīšanās tehnoloģijās. Pilnīgi runas sintēzes modeļi parasti tiek trenēti uz angļu valodas datu kopas un reti tiek trenēti uz citu valodu datiem. Darba laikā tiek veikta pilnīga runas sintēzes modeļa trenēšana uz latviešu valodas audio ierakstiem un tiek izveidots pirmās fāzes StyleTTS 2 runas sintēzes modelis. Otrās fāzes trenēšanas laikā tiek konstatēta kļūda modeļu trenēšanā, pēc kuras tiek uzsākta kļūdas cēloņa noteikšana, kuras laikā tiek atrastas nepilnības runas sintēzes piedāvātā modelī fonēmas līmeņa BERT modelī, kuru ir nepieciešams izveidot latviešu valodai, lai turpinātu StyleTTS 2 runas sintēzes modeļa trenēšanu.
dc.description.abstract	In this bachelor thesis different speech synthesis technologies are researched and described of which neural network-based technologies and their complete speech synthesis models are discussed in depth, taking into account the rapid advances in machine learning technologies in recent years. Full speech synthesis models are usually trained on English language datasets and rarely trained on non-English language datasets. In this work we train a full speech synthesis model on Latvian audio recordings and build a first phase StyleTTS 2 speech synthesis model. During the second phase training an error is detected in the model training, after which the determination of the cause of the error is initiated, during which gaps in the proposed model of speech synthesis are found in the phoneme-level BERT model, which needs to be created for Latvian in order to continue training the StyleTTS 2 speech synthesis mode
dc.language.iso	lav
dc.publisher	Latvijas Universitāte
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Datorzinātne
dc.subject	runas sintēze
dc.subject	StyleTTS 2
dc.subject	dziļie neironu tīkli
dc.subject	pilnīga runas sintēze
dc.title	Pilnīga runas sintēzes modeļa trenēšana latviešu valodai
dc.title.alternative	The training of end-to-end text-to-speech synthesis model for Latvian language
dc.type	info:eu-repo/semantics/bachelorThesis

Files in this item

Name:: 302-103009-Baumanis_Rolands_rb ...
Size:: 1.155Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Bakalaura un maģistra darbi (DF) / Bachelor's and Master's theses [3341]

Show simple item record