Preview

НАЦИОНАЛЬНЫЙ КОРПУС КАЗАХСКОГО ЯЗЫКА: ЛЕКСИКО-СЕМАНТИЧЕСКАЯ РАЗМЕТКА ГЛАГОЛОВ

https://doi.org/10.55491/2411-6076-2024-1-189-196

Аннотация

В связи с тем, что разработка корпуса стала одним из приоритетных направлений для всех языков современного мира, совершенствование национального корпуса казахского языка (НККЯ) также является очень актуальным вопросом. Одним из видов лингвистической информации, отражающей значение слова в базе данных НККЯ, является лексико-семантическая разметка. В статье рассматривается мировой опыт лексико-семантической разметки и дается обзор зарубежных исследований. После анализа национальных корпусов русского и калмыцкого языков, отмечаются особенности национального корпуса казахского языка. Указываются способы деления глаголов на лексико-семантические группы на основе которых формируется разметка корпуса, т. е. определение кодов, раскрывающих значение слова.

 В ходе исследования лексико-семантические группы классифицировались по способу описания и синтеза значений глаголов на основе их общих значений, семантические группы казахских глаголов сравнивались между собой и с семантическими группами в других языках.

В результате исследования в Национальный корпус казахского языка были введены макро и микрогруппы, описывающие значение глагола. Всего сформировано 100 лексико-семантических групп. Лексико-семантическая разметка глаголов включала шесть различных кодов. 18200 глаголов в базе данных корпуса были отмечены лексико-семантической разметкой.

Составленная лексико-семантическая разметка расширяет информацию о слове в Национальном корпусе казахского языка, позволяет пользователю легко определять значение слова, сортировать глаголы со схожим значением и глаголы с положительным, отрицательным оттенком. Можно сказать, что лексико-семантическая разметка является одним из первых шагов, облегчающих деятельность по распознаванию семантики слов искусственного интеллекта в казахском языке, который предполагается создать в ближайшем будущем.

Об авторах

К. Б. Слямбеков
https://tbi.kz/
Институт языкознания им. А.Байтурсынулы
Казахстан

Алматы қ.



А. М. Садык
Университет международного бизнеса имени К. Сагадиева
Казахстан

Алматы қ.



Список литературы

1. Баранов А.Н. (2003) Корпусная лингвистика. Введение в прикладную лингвистику. – М.: Едиториал УРСС, 2003. – 114 с.

2. Жұбанов А.Қ, Жаңабекова А.Ә. (2017) Корпустық лингвистика. – Алматы: Қазақ тілі, 2017. – 336 б.

3. Захаров В.П. (2020) Корпусная лингвистика. – СПб.: Изд. Санкт-Петербургского университета, 2020. – 234 с.

4. Зубов А.В., Зубова И.И. (2004) Информационные технологии в лингвистике. – М., 2004. – 208 с.

5. Исаев С. (1998) Қазіргі қазақ тіліндегі сөздердің грамматикалық сипаты. – Алматы: Рауан, 1998. – 304 б.

6. Куканова В. (2005). Принципы семантической разметки Национального корпуса Калмыцкого языка // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. – М., 2005. – C. 187-192.

7. Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. (2005) Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. – М., 2005, – C. 155-174.

8. Kyto M., Rissanen M. (2012) A Language in transition: The Helsinki Corpus of English texts. – Helsinki: University of Helsinki, 2012. – 680 p.

9. McEnery T., Wilson A. (2001) Corpus Linguistics. – Edinburgh: Edinburgh University Press, 2001. – 235 p.

10. Meyer Ch. F. (2002) English Corpus Linguistics & An Introduction. – Cambridge: Cambridge University Press, 2002. – 168 p.

11. Момынова Б. (2012) Қазақ тiлiнің морфологиясы. – Алматы: Арыс, 2012. – 239 б.

12. Оразов М. (1991) Қазақ тілініц семантикасы. – Алматы: Рауан, 1991. – 216 б.

13. Сиразитдинов З.А. (2006) Моделирование грамматики башкирского языка. – Уфа: Гилем, 2006. – 160 с.

14. Finegan E. (2004). Language: its structure and use. – N.Y.: Harcourt Brace College Publishers, 2004. – 607 p.


Рецензия

Для цитирования:


Слямбеков К.Б., Садык А.М. НАЦИОНАЛЬНЫЙ КОРПУС КАЗАХСКОГО ЯЗЫКА: ЛЕКСИКО-СЕМАНТИЧЕСКАЯ РАЗМЕТКА ГЛАГОЛОВ. Tiltanym. 2024;(1):189-196. https://doi.org/10.55491/2411-6076-2024-1-189-196

For citation:


Slyambekov Q.B., Sadyk A.M. THE NATIONAL CORPUS OF THE KAZAKH LANGUAGE: THE SEMANTIC MARKUP ОF VERBS. Tiltanym. 2024;(1):189-196. https://doi.org/10.55491/2411-6076-2024-1-189-196

Просмотров: 66


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2411-6076 (Print)
ISSN 2709-135X (Online)