Valodas modeļu ģenerēta teksta detektēšanas metodes
Autor
Jasinovičs, Artis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Paikens, Pēteris
Datum
2023Metadata
Zur LanganzeigeZusammenfassung
Valodas modeļi (“GPT”, “Llama”, “LaMBDA”) ir dažu gadu laikā sasnieguši lieliskus rezultātus dabiskās valodas ģenerēšanas uzdevumos. Šāda attīstība ir radījusi iespējas uzlabot visdažādākās sabiedrības darbības jomas, bet līdzās uzlabojumiem tie arī tiek izmantoti ļaunprātīgiem nolūkiem (krāpšanai, propaganda). Modeļu izmantošanas uzplaukums un to sekas, ir radījis nepieciešamību pēc efektīvām metodē kā atšķirt šo valodas modeļu ģenerētu tekstu no īsta cilvēku rakstīta. Bakalaura darbā tika apskatītas, salīdzinātas un eksperimentāli novērtētas pašlaik pieejamākās un modernākās detektēšanas metodes (“OpenAI” klasifikators, “GPTZero”, u.c). Pašreiz pieejamās valodas modeļu detektēšanas metodes neuzrāda pārliecinošus rezultātus vispārīgai valodas modeļu detektēšanai uz dažādu izmēru, valodu un modeļu ģenerētiem tekstiem. Language models (GPT, Llama, LaMBDA) in recent years have achieved surprising results in natural language generation tasks. These improvements have made it possible to improve various areas of society. Alongside these improvements there are also ways in which they can be used for nefarious purposes (scams, propaganda). There has emerged a need for effective ways to detect text generated by models and human written text. In this bachelor’s thesis we look at, compare, and experimentally measure the effectiveness of the currently most available and modern detecting methods like OpenAI text classifier and GPTZero. As a result of the experiments, it is clear that the currently available detection methods do not show convincing results of general language model detection on texts of assorted sizes, languages, and model generated texts.