Цифровизация словаря В. Арнольда: доклад Н. Гришина и Ю. Маккавеевой
23 января состоялся первый в этом году семинар НУГ "Грамматика современных арамейских языков".
23 января состоялся первый в этом году семинар НУГ "Грамматика современных арамейских языков". Юлия Маккавеева и Николай Гришин поделились новыми достижениями в своей продолжающейся работе над цифровой версией словаря Современного Западного Арамейского Вернера Арнольда. В основном докладчики рассказывали о методе разметки словаря: с помощью некоторого символа, который не встречается в оригинальном документе словаря, можно поставить метки по всему словарю и, таким образом, "закодировать" некоторые значения, которые не выражены в тексте словаря. К примеру, к этому докладу словарь был размечен на предмет глагольных и именных статей: именные статьи помечены знаком корня √, глагольные статьи — двумя знаками корня √√. Так же внутри глагольных статей были размечены вхождения словооброзовательных моделей (пород), с помощью кириллической буквы "п": пI, пII, где "п" — иконическое обозначение породы, а римские цифры — номер этой породы, согласно классификации Вернера Арнольда. Благодаря этой разметке стала возможна фильтрация статей в словаре и создание файлов docx., в которых собраны только глагольные статьи или только статьи, содержащие именные леммы, или глагольные/именные статьи с заданными параметрами. Эти параметры задаются в Chat GPT, свободной формулировкой, к примеру:
загрузи файл dictionary.docx и создай файл 4_stem.doxc, в котором будут содержатся статьи с глаголами, содержащими "пIV"; статьи разделены пустой строкой, статьи с глаголами начинаются с символа "√√"
а дальше искусственный интеллект составляет нужный файл. Так, к примеру, для анализа глагольного словообразования, было получено три файла: 1. файл со всеми глагольными словарными статьями, в которых содержатся вхождения IV породы, 2. файл со всеми словарными статьями, в которых содержатся вхождения IV породы, но отсутствуют вхождения I породы, 3. файл со всеми словарными статьями, в которых содержатся вхождения как IV, так и I породы. Эти файлы будут использоваться для исследования глагольных пород в СЗА и их семантики.
пример разметки
Таким образом, простота, доступность и практическая значимость таких методов разметки, может позволить всем участником НУГ пользоваться размеченной версией электронного словаря для исследований грамматики СЗА и других современных арамейских языков. Использование методов искусственного интеллекта и механической обработки данных значительно ускоряет процесс поиска релевантных статей и повышает точность выборки.