• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Создание NLP-инструментов для диалекта Маалулы современного западного арамейского языка: доклад Софии Землянской

13 июня состоялся доклад Софии Землянской про создание NLP-инструментов, которые помогут проводить новые исследования СЗА и облегчить подготовку полевых текстов. Софией были созданы морфологический парсер в системе UniParser и инструмент для глоссирования на его основе. 

Создание NLP-инструментов для диалекта Маалулы современного западного арамейского языка: доклад Софии Землянской

С помощью UniParser можно создавать правило-ориентированные парсеры. Для их работы требуются два обязательных файла — файл с лексемами (lexemes.txt) и файл с парадигмами (paradigms.txt). Также возможно наличие дополнительных файлов, например, файла с клитиками или с запрещёнными разборами. В файле lexemes.txt записывается в определённом формате лексема, её лемма, основа, часть речи и неизменяемые грамматические признаки, а также указывается парадигма, по которой эта лексема должна словоизменяться. В файле paradigms.txt содержатся парадигмы, состоящие из набора флексий, их граммем и глосс. Далее лексемы и парадигмы комбинируются определённым образом, что обеспечивает работу парсера. Выдача парсера осуществляется в одном из трёх форматов: json, xml или CoNLL-U. Например, морфологический разбор предложения «wōb ʕam-nōḥeč ṯelka w rayya» в формате CoNLL-U выглядит следующим образом:

С. Землянская

В настоящее время омонимия никак не снята, поэтому каждое слово получает все возможные разборы. В результате было закодировано 3222 лексемы и 188 парадигм. Точность работы парсера, а именно определения лемм, частей речи и грамматических признаков, составила около 88% на всех словоупотреблениях и около 84% на всех уникальных словоупотреблениях эталонного текста.

На основе созданного парсера был создан инструмент для глоссирования, который принимает на вход текст в формате .txt и выдаёт его отглоссированный вариант также в формате .txt, где каждому предложению соответствует строка с морфологической сегментацией и строка с морфологической аннотацией. Пример текста на входе:

 

isleḳ ʕa ʕarḳūba, ḥmull ʕazīz, laḳṭunne.

ʕazīz m-zawʕe miskīna šayšar bə-brōḳe.

 

Пример текста на выходе:

isleḳ ʕa=ʕarḳūb-a UNK ʕazīz laḳṭ-un-n=e

STEM.PST on=STEM-FREE UNK PN STEM.PST-3mp-PLEO=3ms

 

ʕazīz b=zawʕ=e miskīn-a šayšar b=brōḳ=e

PN in=STEM=3ms STEM-FREE STEM.PST in=STEM=3ms

 

Поскольку омонимия не снята, инструмент пока выдаёт первый из возможных вариантов. Несмотря на это, точность оказалась достаточно высокой:

 

 

Точность морфологической сегментации

Точность морфологической аннотации

На распознанных словоупотреблениях

89.963%

76.208%

На распознанных уникальных словоформах

91.169%

78.043%



Также с помощью созданного парсера были размечены все тексты на диалекте Маалулы из имеющегося корпуса, которые вошли в новый мультимедийный корпус СЗА на платформе tsakorpus. В этом корпусе возможен поиск не только по словоформам, но и по леммам, частям речи, грамматическим признакам и их сочетаниям. Кроме того, каждое предложение можно прослушать, кликнув на него (аудиофайлы были взяты из датасета MASC). Также каждый текст снабжён метаданными, такими как имя, пол, возраст и профессия говорящего и тема текста. На основе выбранных метаданных можно осуществлять поиск в подкорпусе. 

Из 68710 токенов 59783 получили морфологический разбор. Таким образом, среднее покрытие корпуса (т. е. процент разобранных токенов) составило 87,01%. При этом минимальное покрытие текста составило 73,53%, а максимальное — 95,71%.

 



Корпус выложен на сайте проекта «Малые языки» ИЯ РАН сотрудниками Лаборатории исследования и сохранения малых языков и доступен по ссылке: https://corpora.iling-ran.ru/aramaic_corpus.

В дальнейшие направления работы входит снятие омонимии, повышение точности парсера и инструмента для глоссирования, а также повышение покрытия созданного корпуса.

Автор выражает благодарность Антону Бузанову за размещение корпуса на сайте проекта «Малые языки» ИЯ РАН.