Pārklātu runu atdalīšana un apstrāde ar dziļajiem neironu tīkliem
Автор
Grigals, Valts
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Freivalds, Kārlis
Дата
2023Metadata
Показать полную информациюАннотации
Balss apstrādes tehnoloģijas, piemēram, balss-uz-tekstu, mūsdienās ir sasniegušas ļoti labus rezultātus, bet lielākā daļa šo tehnoloģiju ir spējīgas apstrādāt tikai tādu signālu, kas vienlaikus iekļauj tikai viena runātāja balsi. Pastāv vairāki pētījumi dažādu, pārklātu balsu atšķiršanai kā arī nodalīšanai un transkribēšanai. Šī darba ietveros izpētīts nozares esošais stāvoklis – atklājumi, tehnoloģijas un metodes pārklātu runas signālu atdalīšanai – kā arī mēģināts izstrādāt un izvērtēt jaunu risinājumu, kas balstīts uz nesen priekšā stādītās Atlikuma Jaukšanas-Apmaiņas dziļās mašīnmācīšanās tīklu arhitektūras. Speech processing technologies such as Voice-to-Text have achieved excellent results, but most of these technologies are only capable of processing a signal that consists of only one speaker's voice at a time. The topic of overlapping speech processing – speaker diarization, speaker separation and transcribing – is still an active one. This work focuses on compiling the current state of the field – discoveries, acknowledged technologies and methods for separating speech signals – as well as attempts to develop and evaluate a new solution based on the recently proposed Residual Shuffle-Exchange deep machine learning network architecture.