Rīku kopa latviešu valodas semantikas analīzei : publikāciju kopa
Author
Paikens, Pēteris
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Bārzdiņš, Guntis
Date
2018Metadata
Show full item recordAbstract
Promocijas darba pētījuma priekšmets ir automātiskas teksta analīzes metodes, apskatot visus dabiskās valodas apstrādes līmeņus, kas nepieciešami teksta semantiskai analīzei, īpaši pievēršoties risinājumiem, kuri trūka latviešu valodas teksta analīzei. Darbs ir izstrādāts 5 gadu laikā LU MII 4 pētījumu projektu un 2 valsts pētījumu programmu ietvaros. Darbā tiek aprakstītas autora realizētās metodes latviešu valodas nosaukto entitāšu atpazīšanai un piesaistei reālijām. Zināšanu formālās reprezentācijas vajadzībām ir izveidota FrameNet ontoloģija personu un organizāciju datu un attiecību modelēšanai. Darbā ir piedāvāts un realizēts latviešu valodas morfoloģiskās struktūras formāls modelis ar plašu pārklājumu, kas ir piemērots patvaļīga teksta analīzei. Darbā ir apskatītas autora realizētās metodes latviešu valodas morfosintaktiskajai analīzei un realizēts neironu tīklu risinājums daudznozīmības novēršanai. Izstrādātais modelis ir aprobēts praksē vairākos projektos un dabiskās valodas rīku izstrādē. Tāpat darbā ir piedāvāta un realizēta arhitektūra informācijas izguves rīku kopai. Pētīto metožu praktiskai aprobācijai darba gaitā ir izveidots informācijas izguves un zināšanu bāzes aizpildes sistēmas prototips faktu izguvei no latviešu valodas ziņu tekstiem. Šis prototips ir aprobēts ziņu aģentūrā LETA latviešu valodai, kā arī rezultāti ir novērtēti kontekstā ar labakajiem angļu valodas teksta analīzes rezultātiem. Atslēgas vārdi: Morfoloģiskā un morfosintaktiskā analīze, informācijas izguve This work contains reasearch results on algorithms, resources and tools required for semantic text analysis, with a particular focus on filling in the gaps required for semantic analysis of Latvian language. This work has been developed during the last 5 years in University of Latvia Institute of Mathematics and Computer Science in 4 research projects and 2 state research programmes. This work describes methods developed by the author for Latvian named entity recognition and linking with real world entities. A FrameNet ontology has been developed for formal knowledge representation and modeling person and organization attributes and relations. A formal model of Latvian morphology is proposed and implemented in this work, adapted for wide coverage text analysis. This work covers methods for morphosyntactic tagging of Latvian developed by author, introducing a neural network solution for resolving ambiguity. The developed morphology model is approbated in multiple research projects and natural language tools. As a part of this work, an architecture for an information extraction system and an entity-centric knowledge base is proposed and implemented, integrating the researched methods. This concept is validated on a prototype system for biographic data extraction from Latvian newswire data in news agency LETA and evaluated in context with best results in shared task competions for English knowledge base population. Keywords: Morphosyntactic analysis and tagging, information extraction, knowledge representation