Preview

«Универсальные зависимости» для синтаксического анализа кыргызского языка: текущее состояние и перспективы

https://doi.org/10.55491/2411-6076-2025-2-153-167

Аннотация

Кыргызский язык, принадлежащий к тюркской языковой семье и насчитывающий более 4,4 миллиона носителей, сосредоточенных преимущественно в Кыргызстане и прилегающих регионах Центральной Азии, сталкивается со значительным неравенством в вычислительных лингвистических ресурсах по сравнению с языками, имеющими сходную или даже меньшую численность носителей. Несмотря на статус государственного языка и культурной основы, кыргызский язык остается недостаточно представленным в цифровом лингвистическом ландшафте. Данное исследование рассматривает применение фреймворка Универсальных Зависимостей (Universal Dependencies, UD) – системы аннотирования, разработанной для обеспечения межъязыковой синтаксической сопоставимости – к структурным особенностям кыргызского языка. Мы стремимся определить оптимальные стратегии аннотирования, которые достоверно отражают специфические для кыргызского языка синтаксические явления, соблюдая при этом принципиальные ограничения парадигмы UD. Создание стандартизированных синтаксических ресурсов для кыргызского языка имеет двойное значение: оно продвигает лингвистическую типологию, включая данные из недостаточно представленной языковой семьи, и одновременно закладывает основу для практических приложений обработки естественного языка, критически важных для участия носителей кыргызского языка в цифровой сфере. Наш методологический подход включает тщательный анализ новых кыргызских синтаксических корпусов, сравнительную оценку стратегий аннотирования, применяемых для генетически родственных тюркских языков, и систематическое исследование четырех фундаментальных проблем аннотирования: представление дефективной системы связок кыргызского языка, классификацию многофункциональных грамматических частиц, аннотирование конструкций с имплицитными главными элементами и разграничение между словоизменительной и словообразовательной морфологией в этом высоко агглютинативном языке. Наш анализ показывает, что достижение двойных целей лингвистической точности и межъязыковой согласованности требует разумной адаптации руководящих принципов UD для размещения специфических для кыргызского языка структур. Мы предлагаем унифицированные решения по аннотированию, которые сохраняют целостность кыргызских лингвистических моделей, одновременно способствуя значимому межъязыковому сравнению. Это исследование не только вносит существенный вклад в вычислительные ресурсы для кыргызского языка, но и устанавливает принципы аннотирования с более широким применением к типологически схожим агглютинативным языкам. Практические последствия включают в себя улучшенные рекомендации для разработки кыргызских синтаксических корпусов, что, в свою очередь, повысит точность парсера и ускорит разработку важных инструментов языковых технологий для носителей кыргызского языка.

Об авторах

М. Рыспакова
Кыргызский государственный университет им. И. Арабаева
Кыргызстан

Мээрим Рыспакова, докторант

г. Бишкек



А. Турсунова
Кыргызский государственный университет им. И. Арабаева
Кыргызстан

Айгүл Турсунова, докторант

г. Бишкек



Список литературы

1. Джумалиева Г.К., Касиева А.А., Мусажанова С.Дж. Адаптация терминов веб-проекта универсальные зависимости на кыргызский язык // Вестник КРСУ. – 2023. – 23(6): 71-75. http://doi.org/10.36979/1694-500X-2023-23-6-71-75

2. Мусажанова С.Ж., Касиева А.А., Джумалиева Г.К. Синтаксическая аннотация кыргызского языка на основе вновь новосозданного корпуса // Вестник Иссык-Кульского университета. – 2023. – 54: 140-148.

3. Aili, M., Mushajiang, W., Yibulayin, T., Liu, K.A. (2018) Universal dependencies for Uyghur. Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016). P. 44-50. (in English)

4. Benli, İ. (2023) UD_Kyrgyz-KTMU: Universal Dependency treebank for Kyrgyz. GitHub repository: https://github.com/UniversalDependencies/UD_Kyrgyz-KTMU (in English)

5. Çöltekin, Ç., Doğruöz, A., Çetinoğlu, Ö. (2022) Resources for Turkish natural language processing: A critical survey. Language Resources and Evaluation. (in English)

6. Kasieva, A., Knappen, J., Fischer, S., Teich, E. (2020) A new Kyrgyz corpus: sampling, compilation, annotation. Poster presented at: 42. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft. Hamburg, Germany. (in English)

7. Kasieva, A., Dzhumalieva, G., Thompson, A., Jumashev, M., Chontaeva, B., Washington, J. (2023) Issues of Kyrgyz syntactic annotation within the Universal Dependencies framework. In Proceedings of the XI International Conference on Computer Processing of Turkic Languages (TurkLang 2023). (in English)

8. Kornai, A. (2013) Digital Language Death. PLoS ONE 8(10): e77056. https://doi.org/10.1371/journal.pone.0077056 (in English)

9. Makazhanov, A., Sultangazina, A., Makhambetov, O., Yessenbayev, Z. (2015) Syntactic Annotation of Kazakh: Following the Universal Dependencies Guidelines. A report. In Proceedings of the 3rd International Conference on Computer Processing in Turkic Languages (TurkLang 2015). P. 338-350. (in English)

10. Merzhevich, T., Ferraz Gerardi, F. (2022) Introducing YakuToolkit. Yakut treebank and morphological analyzer. In Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. P. 185-188. (in English)

11. Nivre, J., de Marneffe, M.C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C.D., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., Tsarfaty, R., Zeman, D. (2016) Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of LREC. P. 1659-1666. (in English)

12. Sulubacak, U., Gokirmak, M., Tyers, F., Çöltekin, Ç., Nivre, J., Eryiğit, G. (2016) Universal Dependencies for Turkish. In Proceedings of COLING. The 26th International Conference on Computational Linguistics: Technical Papers. P. 3444-3454. (in English)

13. Taguchi, C. (2022) UD Tatar-NMCTT: Universal Dependency corpus for Tatar. GitHub repository: https://github.com/UniversalDependencies/UD_Tatar-NMCTT. (in English)

14. Thompson, A. (2021) Syntactic Parallelism and Structure in Kyrgyz Proverbs. Bachelor's thesis. Bryn Mawr College, Pennsylvania. (in English)

15. Tyers, F., Washington, J. (2015) Towards a free/open-source universal-dependency treebank for Kazakh. In Proceedings of the 3rd International Conference on Computer Processing in Turkic Languages (TurkLang 2015). P. 276-289. (in English)

16. Tyers, F., Washington, J., Çöltekin, Ç., Makazhanov, A. (2017) An assessment of Universal Dependency annotation guidelines for Turkic languages. In Proceedings of the Fifth International Conference on Turkic Language Processing (TurkLang). P. 276-297. (in English)

17. Tyers, F., Sheyanova, M., Washington, J. (2018) UD Annotatrix: An annotation tool for Universal Dependencies. In Proceedings of the 16th International Workshop on Treebanks and Linguistic Theories (TLT). P. 10-17. (in English)

18. Washington, J.N., Ipasov, M., Tyers, F.M. (2012) A finite-state morphological transducer for Kyrgyz. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12). P. 934-940. (in English)

19. Washington, J., Tyers, F., Salimzianov, I. (2022) Non-finite verb forms in Turkic exhibit syncretism, not multifunctionality. Folia Linguistica 56(3): 693-742. https://doi.org/10.1515/flin-2022-2045 (in English)

20. Washington, J., Çöltekin, Ç., Akkurt, F., Chontayeva, B. Eslami, S., Dzhumaliyeva, G., Kasiyeva, A., Kuzgun, A., Marşan, B., Taguchi, C. (2023) Strategies for the Annotation of Pronominalised Locatives in Turkic Universal Dependency Treebanks. ArXiv preprint. (in English)


Рецензия

Для цитирования:


Рыспакова М., Турсунова А. «Универсальные зависимости» для синтаксического анализа кыргызского языка: текущее состояние и перспективы. Tiltanym. 2025;(2):153-167. https://doi.org/10.55491/2411-6076-2025-2-153-167

For citation:


Ryspakova M., Tursunova A. “Universal Dependencies” for Syntactic Analysis of the Kyrgyz Language: Current State and Prospects. Tiltanym. 2025;(2):153-167. https://doi.org/10.55491/2411-6076-2025-2-153-167

Просмотров: 2


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2411-6076 (Print)
ISSN 2709-135X (Online)