Matemātikas uzdevumu metadatu mašīnmācīšanās
Author
Ozoliņa, Elizabete
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Apsītis, Kalvis
Date
2024Metadata
Show full item recordAbstract
Darba mērķis ir paātrināt jauna satura pievienošanu matemātikas olimpiāžu uzdevumu krātuvei, kas radīta kvalifikācijas darba ietvaros. Jaunu uzdevumu ātrākai pievienošanai nepieciešama metadatu noteikšana ar mašīnmācīšanās algoritmiem un lielajiem valodu modeļiem (LLM). Krātuvē esošos uzdevumus var pievienot ar tīmekļa pārmeklētāju (Web crawler) un pievienot metainformāciju – matemātikas nozari, apakšnozares un tēmas, sagaidāmo atrisinājuma struktūru, atslēgvārdus, avotus. Procesu automatizē ar OpenAI API, Python Scikit-learn un Tildes tulkošanas servisu. Darbā paredzams izpētīt, kā klasiskie mašīnmācīšanās algoritmi (SVM, KNN u.c) un lielie valodu modeļi (OpenAI) ģenerē metadatus, izmantojot uzdevuma tekstu vai tā atrisinājumu un secināt, kuras metodes precīzāk iegūst uzdevuma meklēšanai nepieciešamos metadatus. Lai veicinātu mācību satura atkalizmantojamību, svarīgi, lai skolotāji varētu to efektīvi meklēt ar sev interesējošiem satura filtriem. Bakalaura darbā apskatīti vairāki uzdevuma metainformācijas veidi un katram atrastas praktiskas metodes, kas rada iespējami maz kļūdu un neprasa ievērojamu roku darbu. The aim of the thesis is to augment an existing repository of mathematics olympiad problems, developed as my qualification project, to allow massive addition of new content and populating its metadata using machine learning algorithms and LLMs (large language models). New olympiad problems need various metadata fields (such as math domains and subdomains, topics, expected solution structure, keywords, etc.) using OpenAI, machine learning algorithms and online translation services. The work will show how classical machine learning algorithms (SVM, KNN, etc.) and large language models (OpenAI) generate metadata from problem statements (and sometimes also their solutions) to decide which method is more accurate to obtain the metadata for math problems necessary for searching them. The work is expected to effectively add meta-information to tasks - especially skills, industry, expected solution structure, terms that help teachers to search for suitable tasks more effectively. Different meta-information inference methods will be compared - OpenAI, KNN, SVM and other machine learning methods.