Pārklātu runu atdalīšana un apstrāde ar dziļajiem neironu tīkliem

Grigals, Valts

Открыть

302-95957-Grigals_Valts_vg19027.pdf (1.240Mb)

Автор

Grigals, Valts

Co-author

Latvijas Universitāte. Datorikas fakultāte

Advisor

Freivalds, Kārlis

Дата

2023

Metadata

Показать полную информацию

Аннотации

Balss apstrādes tehnoloģijas, piemēram, balss-uz-tekstu, mūsdienās ir sasniegušas ļoti labus rezultātus, bet lielākā daļa šo tehnoloģiju ir spējīgas apstrādāt tikai tādu signālu, kas vienlaikus iekļauj tikai viena runātāja balsi. Pastāv vairāki pētījumi dažādu, pārklātu balsu atšķiršanai kā arī nodalīšanai un transkribēšanai. Šī darba ietveros izpētīts nozares esošais stāvoklis – atklājumi, tehnoloģijas un metodes pārklātu runas signālu atdalīšanai – kā arī mēģināts izstrādāt un izvērtēt jaunu risinājumu, kas balstīts uz nesen priekšā stādītās Atlikuma Jaukšanas-Apmaiņas dziļās mašīnmācīšanās tīklu arhitektūras.

Speech processing technologies such as Voice-to-Text have achieved excellent results, but most of these technologies are only capable of processing a signal that consists of only one speaker's voice at a time. The topic of overlapping speech processing – speaker diarization, speaker separation and transcribing – is still an active one. This work focuses on compiling the current state of the field – discoveries, acknowledged technologies and methods for separating speech signals – as well as attempts to develop and evaluate a new solution based on the recently proposed Residual Shuffle-Exchange deep machine learning network architecture.

URI

https://dspace.lu.lv/dspace/handle/7/64282

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5488]