Қырғыз тілін синтаксистік талдау үшін «Әмбебап тәуелділіктер»: қазіргі жағдайы және болашағы
https://doi.org/10.55491/2411-6076-2025-2-153-167
Аңдатпа
Қырғыз тілі – түркі тілдер тобына жататын, негізінен Қырғызстан мен Орталық Азияның іргелес аймақтарында шоғырланған 4,4 миллионнан астам сөйлеушісі бар қырғыз тілі тіл иелерінің саны ұқсас немесе одан да аз тілдермен салыстырғанда есептеуіш лингвистикалық ресурстарда айтарлықтай теңсіздікке тап болып отыр. Мемлекеттік тіл және мәдени тірек ретіндегі мәртебесіне қарамастан, қырғыз тілі цифрлық лингвистикалық ландшафтыда әлі де жеткіліксіз қамтылған. Бұл зерттеу Әмбебап тәуелділіктер шеңберін (Universal Dependencies, UD) – тіларалық синтаксистік салыстыруды қамтамасыз ету үшін әзірленген аннотация жүйесін қырғыз тілінің құрылымдық ерекшеліктеріне қолдануды қарастырады. Біз UD парадигмасының негізгі шектеулерін сақтай отырып, қырғыз тіліне тән синтаксистік құбылыстарды шынайы көрсететін оңтайлы аннотация стратегияларын анықтауға тырысамыз. Қырғыз тілі үшін стандартталған синтаксистік ресурстарды құру екі жақты маңызға ие: ол жеткіліксіз ұсынылған тіл тобынан деректерді қосу арқылы лингвистикалық типологияны алға жылжытады және сонымен бірге қырғыз тілінде сөйлейтіндердің цифрлық салаға қатысуы үшін маңызды табиғи тілді өңдеуші қолданбалар үшін негіз қалайды. Біздің әдіснамалық тәсіліміз жаңадан пайда болған қырғыз тілінің синтаксистік корпустарын мұқият талдауды, генетикалық жақын түркі тілдеріне қолданылатын аннотация стратегияларын салыстырмалы бағалауды және төрт негізгі аннотация мәселелерін жүйелі зерттеуді қамтиды: қырғыз тілінің ақаулы көмекші етістік жүйесін көрсету, көп функциялы грамматикалық бөлшектерді жіктеу, жасырын негізгі элементтері бар конструкцияларды аннотациялау және осы жоғары агглютинативті тілдегі сөз түрлендіруші және сөзжасамдық морфологияның аражігін ажырату. Біздің талдауымыз лингвистикалық дәлдік пен тілдер арасындағы сәйкестіктің қос мақсаттарына жету үшін қырғыз тіліне тән құрылымдарға UD нұсқауларын шебер бейімдеу қажет екенін көрсетеді. Біз қырғыз лингвистикалық үлгілерінің тұтастығын сақтай отырып, тілдер арасында мағыналы салыстыруға мүмкіндік беретін бірыңғай аннотация шешімдерін ұсынамыз. Бұл зерттеу қырғыз тілі үшін есептеу ресурстарына елеулі үлес қосып қана қоймай, типологиялық ұқсас агглютинативті тілдерге кеңінен қолданылатын аннотация принциптерін де белгілейді. Практикалық салдарлар қырғыз синтаксистік корпустарды дамыту үшін жетілдірілген нұсқауларды қамтиды, бұл өз кезегінде парсер дәлдігін жақсартып, қырғыз тілінде сөйлейтіндер үшін маңызды тілдік технологиялық құралдарды әзірлеуді жеделдетеді.
Авторлар туралы
М. РыспақоваҚырғызстан
Мээрім Рыспақова, докторант
Бішкек қ.
А. Тұрсұнова
Қырғызстан
Айгүл Тұрсұнова, докторант
Бішкек қ.
Әдебиет тізімі
1. Джумалиева Г.К., Касиева А.А., Мусажанова С.Дж. Адаптация терминов веб-проекта универсальные зависимости на кыргызский язык // Вестник КРСУ. – 2023. – 23(6): 71-75. http://doi.org/10.36979/1694-500X-2023-23-6-71-75
2. Мусажанова С.Ж., Касиева А.А., Джумалиева Г.К. Синтаксическая аннотация кыргызского языка на основе вновь новосозданного корпуса // Вестник Иссык-Кульского университета. – 2023. – 54: 140-148.
3. Aili, M., Mushajiang, W., Yibulayin, T., Liu, K.A. (2018) Universal dependencies for Uyghur. Proceedings of the Third International Workshop on Worldwide Language Service Infrastructure and Second Workshop on Open Infrastructures and Analysis Frameworks for Human Language Technologies (WLSI/OIAF4HLT2016). P. 44-50. (in English)
4. Benli, İ. (2023) UD_Kyrgyz-KTMU: Universal Dependency treebank for Kyrgyz. GitHub repository: https://github.com/UniversalDependencies/UD_Kyrgyz-KTMU (in English)
5. Çöltekin, Ç., Doğruöz, A., Çetinoğlu, Ö. (2022) Resources for Turkish natural language processing: A critical survey. Language Resources and Evaluation. (in English)
6. Kasieva, A., Knappen, J., Fischer, S., Teich, E. (2020) A new Kyrgyz corpus: sampling, compilation, annotation. Poster presented at: 42. Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft. Hamburg, Germany. (in English)
7. Kasieva, A., Dzhumalieva, G., Thompson, A., Jumashev, M., Chontaeva, B., Washington, J. (2023) Issues of Kyrgyz syntactic annotation within the Universal Dependencies framework. In Proceedings of the XI International Conference on Computer Processing of Turkic Languages (TurkLang 2023). (in English)
8. Kornai, A. (2013) Digital Language Death. PLoS ONE 8(10): e77056. https://doi.org/10.1371/journal.pone.0077056 (in English)
9. Makazhanov, A., Sultangazina, A., Makhambetov, O., Yessenbayev, Z. (2015) Syntactic Annotation of Kazakh: Following the Universal Dependencies Guidelines. A report. In Proceedings of the 3rd International Conference on Computer Processing in Turkic Languages (TurkLang 2015). P. 338-350. (in English)
10. Merzhevich, T., Ferraz Gerardi, F. (2022) Introducing YakuToolkit. Yakut treebank and morphological analyzer. In Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. P. 185-188. (in English)
11. Nivre, J., de Marneffe, M.C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C.D., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., Tsarfaty, R., Zeman, D. (2016) Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of LREC. P. 1659-1666. (in English)
12. Sulubacak, U., Gokirmak, M., Tyers, F., Çöltekin, Ç., Nivre, J., Eryiğit, G. (2016) Universal Dependencies for Turkish. In Proceedings of COLING. The 26th International Conference on Computational Linguistics: Technical Papers. P. 3444-3454. (in English)
13. Taguchi, C. (2022) UD Tatar-NMCTT: Universal Dependency corpus for Tatar. GitHub repository: https://github.com/UniversalDependencies/UD_Tatar-NMCTT. (in English)
14. Thompson, A. (2021) Syntactic Parallelism and Structure in Kyrgyz Proverbs. Bachelor's thesis. Bryn Mawr College, Pennsylvania. (in English)
15. Tyers, F., Washington, J. (2015) Towards a free/open-source universal-dependency treebank for Kazakh. In Proceedings of the 3rd International Conference on Computer Processing in Turkic Languages (TurkLang 2015). P. 276-289. (in English)
16. Tyers, F., Washington, J., Çöltekin, Ç., Makazhanov, A. (2017) An assessment of Universal Dependency annotation guidelines for Turkic languages. In Proceedings of the Fifth International Conference on Turkic Language Processing (TurkLang). P. 276-297. (in English)
17. Tyers, F., Sheyanova, M., Washington, J. (2018) UD Annotatrix: An annotation tool for Universal Dependencies. In Proceedings of the 16th International Workshop on Treebanks and Linguistic Theories (TLT). P. 10-17. (in English)
18. Washington, J.N., Ipasov, M., Tyers, F.M. (2012) A finite-state morphological transducer for Kyrgyz. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12). P. 934-940. (in English)
19. Washington, J., Tyers, F., Salimzianov, I. (2022) Non-finite verb forms in Turkic exhibit syncretism, not multifunctionality. Folia Linguistica 56(3): 693-742. https://doi.org/10.1515/flin-2022-2045 (in English)
20. Washington, J., Çöltekin, Ç., Akkurt, F., Chontayeva, B. Eslami, S., Dzhumaliyeva, G., Kasiyeva, A., Kuzgun, A., Marşan, B., Taguchi, C. (2023) Strategies for the Annotation of Pronominalised Locatives in Turkic Universal Dependency Treebanks. ArXiv preprint. (in English)
Рецензия
Дәйектеу үшін:
Рыспақова М., Тұрсұнова А. Қырғыз тілін синтаксистік талдау үшін «Әмбебап тәуелділіктер»: қазіргі жағдайы және болашағы. TILTANYM. 2025;(2):153-167. https://doi.org/10.55491/2411-6076-2025-2-153-167
For citation:
Ryspakova M., Tursunova A. “Universal Dependencies” for Syntactic Analysis of the Kyrgyz Language: Current State and Prospects. Tiltanym. 2025;(2):153-167. https://doi.org/10.55491/2411-6076-2025-2-153-167