Abstraktās nozīmes reprezentācijas atvasināšana no esošajiem sintaktiskajiem un semantiskajiem attēlojumiem Latviešu valodā
Autor
Sprukulis, Rihards
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Grūzītis, Normunds
Datum
2020Metadata
Zur LanganzeigeZusammenfassung
Dabiskās valodas automatizētas sapratnes risinājumi ir aktuāli un tiek izmantoti ikdienā: liela apjoma teksta analīzē, informācijas izguvē un strukturēšanā, mediju un sociālo tīklu monitoringā u.c. Šo risinājumu implementācija balstās uz teksta semantiskajiem parsētājiem, kuru mašīnapmācībai nepieciešamas lielas, formāli anotētas datu kopas (valodas resursi). Viens no pēdējos gados plašāk pētītajiem teksta semantiskā attēlojuma formālismiem ir Abstraktā nozīmes reprezentācija (AMR). Latviešu valodai ir pieejami vairāki sintaktiski un semantiski anotēti valodas resursi, taču pašlaik vēl nav pieejama apjomīga, kvalitatīvi anotēta latviešu valodas AMR treniņdatu kopa. Iegūt AMR treniņdatus nav vienkārši – izmantot cilvēkresursus ir dārgi un laikietilpīgi, savukārt esošo angļu valodas AMR parsētāju precizitāte nav pietiekama, lai kvalitatīvu un konsekventu AMR attēlojumu automātiski projicētu latviešu valodas teikumiem, izmantojot mašīntulkošanu. Darba mērķis ir izstrādāt metodi un tās implementāciju AMR attēlojuma automātiskai atvasināšanai no esošiem zemāka līmeņa sintaktiski un semantiski anotētiem latviešu valodas resursiem. Darbā ir apskatīti dažādie attēlojumi, pētīti iespējami risinājumi, aprakstīta izvēlētā risinājuma implementācija, novērtēta iegūtā AMR attēlojuma kvalitāte un pārklājums. Natural language processing solutions are topical and are widely used: text analysis, information retrieval and structuring, media monitoring, etc. These solution implementations are based on semantic parsers which training requires annotated text corpora. One of the most studied text semantic annotation formalizations is Abstract meaning representation (AMR). There are multiple text corpora annotated with semantic and syntactic representations available for Latvian language, however currently there is no adequate precision AMR training set available. Acquiring AMR corpora is not a simple task – manual annotation is costly and takes a long time, but existing English language AMR parsers suffer from lack of precision to be able to project Latvian resources onto AMR. This papers goal is to develop a method to derive AMR from existing Latvian language annotated corpora, and create a tool to automate this task. Take a look at different annotations of Latvian corpus, investigated possible solutions, analyzed the resulting derived AMR annotation precision and recall.