Teksta sarežģītības novērtēšana latviešu valodai
Author
Kalniņš, Māris
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņa, Inguna
Date
2024Metadata
Show full item recordAbstract
Bakalaura darba mērķis ir izpētīt metodes un izstrādāt rīkus, kas ļauj novērtēt latviešu valodas teksta sarežģītību. Darbs satur galveno metožu analīze un implementāciju - novērtēšanu, izmantojot gan teksta kvantitatīvo un kvalitatīvo analīzi, gan mašīnmācīšanās, ņemot vērā izglītības atbalstītu teksta korpusu. Darbu veido teorētiskā un praktiskās daļa. Teorētiskajā daļā apskata abu izstrādes implementāciju pielietotās datorlingvistikas metodes un to salīdzinājumus. Praktiskajā daļā tiek aplūkota pašreizējā situācija, novērtējot teksta sarežģītību, un apmācīts modelis teksta sarežģītības klasifikācijas uzdevumam. Izstrādes procesā izmantoti vairāki rīki datu pirmapstrādei - morfoloģiskais marķētājs, lemmu pārveidotājs, latviešu valodas zilbju dalītājs. Risinājuma ietvaros ir izveidots publiski pieejams automatizēts rīks, kas kalpo kā tekstu sarežģītības novērtētājs. Lai novērtētu izveidotos risinājumus, iegūtie rezultāti ir salīdzināti gan manuāli, gan automātiski, izmantojot vērā novērtēšanas datu kopu, kā arī salīdzināti rīka iegūtie rezultāti ar alternatīviem publiski pieejamiem rīkiem The aim of the bachelor's work is to research methods and develop tools that allow assessing the complexity of the Latvian language text. The work contains the analysis and implementation of the main methods - evaluation using quantitative and qualitative text analysis, and deep machine learning, taking into account a supported text corpus for education purposes. The work consists of a theoretical and a practical part. The theoretical part examines the computational linguistics methods used in both development and their evaluation. The practical part examines the current situation in assessing text complexity, applies theory and trains a model for the task of text complexity classification. In the development process, several tools were used for data preprocessing - morphological tagger, lemmatizer, Latvian hyphenator. As part of the solution, a publicly available automated tool has been created that serves as a text complexity estimator. To evaluate the created solutions, the obtained results have been compared both manually and automatically using the evaluation data set as well compared to other state of the art solutions.