Создание NLP-инструментов для диалекта Маалулы современного западного арамейского языка: доклад Софии Землянской
13 июня состоялся доклад Софии Землянской про создание NLP-инструментов, которые помогут проводить новые исследования СЗА и облегчить подготовку полевых текстов. Софией были созданы морфологический парсер в системе UniParser и инструмент для глоссирования на его основе.
С помощью UniParser можно создавать правило-ориентированные парсеры. Для их работы требуются два обязательных файла — файл с лексемами (lexemes.txt) и файл с парадигмами (paradigms.txt). Также возможно наличие дополнительных файлов, например, файла с клитиками или с запрещёнными разборами. В файле lexemes.txt записывается в определённом формате лексема, её лемма, основа, часть речи и неизменяемые грамматические признаки, а также указывается парадигма, по которой эта лексема должна словоизменяться. В файле paradigms.txt содержатся парадигмы, состоящие из набора флексий, их граммем и глосс. Далее лексемы и парадигмы комбинируются определённым образом, что обеспечивает работу парсера. Выдача парсера осуществляется в одном из трёх форматов: json, xml или CoNLL-U. Например, морфологический разбор предложения «wōb ʕam-nōḥeč ṯelka w rayya» в формате CoNLL-U выглядит следующим образом:
В настоящее время омонимия никак не снята, поэтому каждое слово получает все возможные разборы. В результате было закодировано 3222 лексемы и 188 парадигм. Точность работы парсера, а именно определения лемм, частей речи и грамматических признаков, составила около 88% на всех словоупотреблениях и около 84% на всех уникальных словоупотреблениях эталонного текста.
На основе созданного парсера был создан инструмент для глоссирования, который принимает на вход текст в формате .txt и выдаёт его отглоссированный вариант также в формате .txt, где каждому предложению соответствует строка с морфологической сегментацией и строка с морфологической аннотацией. Пример текста на входе:
isleḳ ʕa ʕarḳūba, ḥmull ʕazīz, laḳṭunne.
ʕazīz m-zawʕe miskīna šayšar bə-brōḳe.
Пример текста на выходе:
isleḳ ʕa=ʕarḳūb-a UNK ʕazīz laḳṭ-un-n=e
STEM.PST on=STEM-FREE UNK PN STEM.PST-3mp-PLEO=3ms
ʕazīz b=zawʕ=e miskīn-a šayšar b=brōḳ=e
PN in=STEM=3ms STEM-FREE STEM.PST in=STEM=3ms
Поскольку омонимия не снята, инструмент пока выдаёт первый из возможных вариантов. Несмотря на это, точность оказалась достаточно высокой:
| Точность морфологической сегментации | Точность морфологической аннотации |
На распознанных словоупотреблениях | 89.963% | 76.208% |
На распознанных уникальных словоформах | 91.169% | 78.043% |
Также с помощью созданного парсера были размечены все тексты на диалекте Маалулы из имеющегося корпуса, которые вошли в новый мультимедийный корпус СЗА на платформе tsakorpus. В этом корпусе возможен поиск не только по словоформам, но и по леммам, частям речи, грамматическим признакам и их сочетаниям. Кроме того, каждое предложение можно прослушать, кликнув на него (аудиофайлы были взяты из датасета MASC). Также каждый текст снабжён метаданными, такими как имя, пол, возраст и профессия говорящего и тема текста. На основе выбранных метаданных можно осуществлять поиск в подкорпусе.
Из 68710 токенов 59783 получили морфологический разбор. Таким образом, среднее покрытие корпуса (т. е. процент разобранных токенов) составило 87,01%. При этом минимальное покрытие текста составило 73,53%, а максимальное — 95,71%.
Корпус выложен на сайте проекта «Малые языки» ИЯ РАН сотрудниками Лаборатории исследования и сохранения малых языков и доступен по ссылке: https://corpora.iling-ran.ru/aramaic_corpus.
В дальнейшие направления работы входит снятие омонимии, повышение точности парсера и инструмента для глоссирования, а также повышение покрытия созданного корпуса.
Автор выражает благодарность Антону Бузанову за размещение корпуса на сайте проекта «Малые языки» ИЯ РАН.