Preview

Қазақ тілінің ұлттық корпусы мәтіндерінің жиілік сөздігін құрастырудағы омонимдерді ықтималдық-статистикалық әдіспен ажырату технологиясы

https://doi.org/10.55491/2411-6076-2025-2-183-193

Толық мәтін:

Аңдатпа

Мақалада қазақ тілінің ұлттық корпусына негізделген жиілік сөздігін құрастыру барысында омонимдерді ықтималдық-статистикалық әдіспен ажырату технологиясы жан-жақты сипатталады. Зерттеу мақсаты – бірдей жазылып, бірақ мағынасы мен грамматикалық қызметі әртүрлі болатын сөздерді (омонимдерді) автоматты түрде дәл ажырату жолдарын айқындау. Қазақ тілінің агглютинативті табиғатына тән морфологиялық күрделілік омонимдерді тану мен өңдеуде елеулі қиындықтар туғызады. Осы мәселені шешу мақсатында тілдік деректер автоматты морфологиялық анализатор арқылы өңделіп, сөздердің леммалық нысандары мен сөз таптары белгіленді. Алайда талдаудың дәлдігін арттыру үшін омонимдерді мәнмәтін негізінде саралап, ықтималдық үлестері арқылы нақты мағынасына сай үлестіретін арнайы кесте жасалды. Мақалада жиілік сөздікті құрастыру кезеңдері, қолданылған алгоритмдер мен мәтіндік стильдер сипатталады. Нақты мысалдар арқылы омонимдердің түрлі сөз таптарында қолданылу жиілігі салыстырылып, сандық мәліметтер негізінде мағыналық үлгілер жасалды. Бұл әдістеме арқылы жиілік реестрінде омонимдердің ықтимал мағыналық үлес салмағы есептеліп, олардың тілдік қолданыстағы үлгілері айқындалды. Жиілік көрсеткіштер мен мәнмәтіндік деректердің ұштасуы тілдік мазмұнның тереңірек танылуына ықпал етеді. Ұсынылған технология омонимдерді автоматты түрде тану мен топтастыруды жетілдіру арқылы жиілік сөздіктер сапасын арттыруға, тіл үйрету құралдарын тиімді әзірлеуге, сондай-ақ жасанды интеллектіге негізделген лингвистикалық жүйелерді құруға айтарлықтай мүмкіндік береді. Сонымен қатар бұл тәсіл лингвостатистика, семантикалық модельдеу, білім беру саласындағы цифрлық құралдар мен корпус ресурстарын интеграциялау секілді бағыттарда кеңінен қолдануға әлеуетті. Зерттеу нәтижелері қазақ тіл білімінің корпус лингвистикасы, қолданбалы лингвистика және цифрлы лексикография бағыттарында тың әдістемелік үлгі ұсынады.

Авторлар туралы

Е. Б. Бесіров
Әл-Фараби атындағы Қазақ ұлттық университеті
Қазақстан

Еркін Бекжанұлы Бесіров, докторант

Алматы қ.



А. Ә. Жаңабекова
А. Байтұрсынұлы атындағы Тіл білімі институты
Қазақстан

Айман Әбділдәқызы Жаңабекова,

Алматы қ.



Әдебиет тізімі

1. Абай тілі сөздігі. – Алматы, 1968. – 734 б.

2. Абай шығармаларының академиялық толық жинағы. Том 1, 2, 3. – Алматы: Жазушы, 2020. – 604, 524, 488 бб.

3. Аношкина Н.Г. Омонимия в русском языке. – Омск: Изд-во ОмГПУ, 2000. – 118 с.

4. Аханов К. Тіл біліміне кіріспе. – Алматы: Қазақтың мемл. оқу-педагогика баспасы, 1962. – 299 б.

5. Ахманова О.С. Очерки по общей и русской лексикологии. – Москва: Гос. учебно-пед. изд., 1957. – 294 c.

6. Бектаев Қ.Б. Ғ.Мүсіреповтің «Кездеспей кеткен бір бейне» повесі тілінің алфавитті-жиілік сөздігі/ Қ.Б. Бектаев,

7. А. Белботаев, Қ. Молдабеков жб. // Қазақ тексінің статистикасы: «Статистика-лингвистикалық зерттеу мен автоматтандыру» тобы еңбектерінің ІІІ шығуы. – Алматы, 1973. – 519-542-бб.

8. Бектаев Қ.Б., Жұбанов А.Қ., Мырзабеков С., Белботаев А.Б. М.О. Әуезовтің 20 томдық шығармалар текстерінің жиілік сөздіктері. – Алматы-Түркістан, 1995. – 346 б.

9. Белбаева М. Қазақ тілінің омонимдер сөздігі. – Алматы: Мектеп, 1988. – 192 б.

10. Жалпы білім берудегі қазақ тілінің жиілік сөздігі. – Алматы: «Дәуір» баспасы, 2016. – 1472 б.

11. Жұбанов А., Жаңабекова А., Карбозова Б., Қожахметова А. Қазақ тілінің жиілік сөздігі. – Алматы: «Қазақ тілі» баспасы, 2016. – 665 б.

12. Зеленков Ю.Г., Сегалович И.В., Титов В.А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара «Диалог-2005». – Москва: Наука, 2005. – 616 с.

13. Кеңесбаев І. Қазіргі қазақ тілі. Лексика,фонетика / Қазақ ССР Жоғары және арнаулы орта білім министрлігі бекіткен. 2-ші басылуы. – Алматы: Мектеп, 1975. – 304 б.

14. Ким О.М. Омонимия на уровне частей речи на современном английском языке: материалы к спецкурсу Омонимия на уровне частных речи в современном русском языке: материалы к спецкурсу. – Ташкент: Ташкентский гос. университет им. В.И. Ленина, 1983. – 68 c.

15. Кобзарева Т. Ю., Афанасьев Р. Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в русском языке на основе словаря диагностических ситуаций // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара «Диалог-2002». Т. 2. – Протвино: 2002. – С. 258-268.

16. Колесников Н.П. Словарь омонимов русского языка. – Москва: Русский язык, 1980. – 302 с.

17. Мұсабаев Ғ.Ғ. Қазақ тіл білімінің мәселелері. – Алматы: Абзал-Ай, 2014. – 640 б. ISBN 978‑601‑7172‑39‑8. Google Docs (n.d.) URL: https://docs.google.com/spreadsheets/d/1ZtdK2xCBvXTXVp1ImiaKLCVhzZ4mjJ_OSyuxrQGdtA/edit?gid=0#gid=0 [Accessed: 10 June 2025]. (online resource) wikipedia.org/ [Қолданылуы: 2025 жылғы 10 маусым]. (интернет-ресурс)


Рецензия

Дәйектеу үшін:


Бесіров Е.Б., Жаңабекова А.Ә. Қазақ тілінің ұлттық корпусы мәтіндерінің жиілік сөздігін құрастырудағы омонимдерді ықтималдық-статистикалық әдіспен ажырату технологиясы. TILTANYM. 2025;(2):183-193. https://doi.org/10.55491/2411-6076-2025-2-183-193

For citation:


Bessirov Ye., Zhanabekova A. Technology of Distinguishing Homonyms Using Probabilistic and Statistical Methods in Compiling a Frequency Dictionary of Texts of the National Corpus of the Kazakh Language. Tiltanym. 2025;(2):183-193. (In Kazakh) https://doi.org/10.55491/2411-6076-2025-2-183-193

Қараулар: 3


ISSN 2411-6076 (Print)
ISSN 2709-135X (Online)