Preview

ПАРАЛЛЕЛЬНЫЙ ПОДКОРПУС КАЗАХСКОГО И РУССКОГО ЯЗЫКОВ: РАЗРАБОТКА, ФУНКЦИОНИРОВАНИЕ И ПРОБЛЕМЫ

https://doi.org/10.55491/2411-6076-2023-2-49-61

Аннотация

В статье дан краткий обзор истории создания лингвистических корпусов, описана их классификация по различным признакам и типы параллельных подкорпусов. Оригинальный казахский текст романа- эпопеи М. Ауэзова «Абай жолы» и его русский перевод, выполненный А. Кимом, были вручную выровнены на уровне абзаца (предложения) в параллельном подкорпусе, разрабатываемом в составе Национального корпуса казахского языка.
В ходе разработки параллельного подкорпуса использовались программные средства Microsoft Office Excel, Notepad++, Python, Django, MySQL. Программную архитектуру и порядок функционирования параллельного подкорпуса можно представить следующим образом: 1) тексты на двух языках были собраны с помощью офисной программы Excel и выровнены вручную на уровне абзаца (предложения); 2) выровненные тексты загружались непосредственно из файла Excel в систему управления базами данных MySQL; 3) загруженные тексты были отсортированы с помощью программы текстового процессора Notepad++, была получена их статистика; 4) для публикации отсортированных текстов в интернете и обеспечения запросов пользователей использовался веб-сервер Django; 5) для подключения веб-сервера Django к системе управления базами данных MySQL была использована программа Processing.py, написанная на Python и снабженная функцией поиска; 6) программная архитектура параллельного подкорпуса разработана с применением технологий client-server и MVC (Model-View-Controller). Параллельный подкорпус состоит из базы выровненных текстов, разметок, метаразметок и поисковой системы, информация о тексте, введенного в подкорпус (метаразметка), включает следующие параметры: автор, переводчик, название произведения, название перевода, дата публикации произведения, срок перевода, язык оригинала, язык перевода. Поисковая система позволяет найти искомое слово по параметрам: слово, фраза, предложение, заглавные буквы (на казахском и русском языках).
В статье дается описание интерфейса параллельного подподкорпуса на казахском и русском языках и интерфейса результатов после поиска искомого слова через один из параметров поиска, было определено общее и неповторяющееся количество слов, используемых в тексте на двух языках, количество предложений, а также числовые и процентные значения десяти наиболее часто используемых словупотреблений на обоих языках.
Кроме того, в процессе выравнивания оригинального казахского текста романа-эпопеи с русской переводной версией на уровне абзаца (предложения) были выявлены следующие особенности: 1) с точки зрения структуры, то есть слова, используемые в абзаце (предложении), примерно равнозначны по количеству; 2) с точки зрения содержания примерно совпадают; 3) не совпадают по структуре и содержанию: некоторые абзацы (предложения) в оригинальном тексте на казахском языке переведены на русский язык неправильно, поверхностно либо кратко, дан их приблизительный смысл.

Об авторах

Н. М. Ашимбаева
Институт языкознания имени Ахмета Байтурсынулы
Казахстан

Алматы



А. З. Бисенгали
Институт языкознания имени Ахмета Байтурсынулы
Казахстан

Алматы



С. К. Кулманов
Институт языкознания имени Ахмета Байтурсынулы
Казахстан

Алматы



Ғ. М. Аязбаев
Институт языкознания имени Ахмета Байтурсынулы
Казахстан

Алматы



М. Нурлан
Институт языкознания имени Ахмета Байтурсынулы
Казахстан

Алматы



Список литературы

1. Svartvik J., Quirk R. (1980) A corpus of English Conversation. – Lund: Gleerup, 1980. – 284 p.

2. Francis W. (2022) Brown Corpus Manual: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. [Электрон. ресурс] – URL: http://icame.uib.no/brown/bcm.html (қаралған кҥні – 01.02.2022).

3. Hundt, Marianne. (2022) Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). [Электрон. ресурс] – URL: http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM (қаралған кҥні – 01.02.2022).

4. Leech C. (2005) Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal. – Geoffrey & Nicholas Smith, 2005. № 29. – P. 83-98.

5. Жҧбанов А., Жаңабекова А.(2017) Корпустық лингвистика. – Алматы, 2017. – 318 б.

6. Захаров В.П. (2005) Корпусная лингвистика: Учебн.-метод. пособие. – СПб., 2005. – 48 с.

7. Жҧбанов А.Қ. (2009) Қазақ тілі мҽтіндер корпусының компьютерлік базасын қҧрудың алғышарттары // Ҽдеби тіл жҽне қазақ тілінің ҿміршеңдігі. / Жауапты ред. Қ.Кҥдеринова. –Алматы: «КИЕ» лингвоелтану инновациялық орталығы, 2009. –175-179-бб.

8. Жаңабекова А.Ҽ. (2012) Қазақ тілі мҽтіндеріне морфологиялық белгіленім қоюдың ғылыми-тҽжірибелік негіздері // Научно-практическая конференция «Языки меньшинств в компьютерных технологиях: опыт, задачи и перспективы». – Уфа, 2012. – Б. 42-50.

9. Жубанов А.К. (2015) Принципы автоматизации морфологической разметки текстов Национального корпуса казахского языка (НККЯ) // Материалы международной научно-практической конференции «Контрастивные исследования и прикладная лингвистика». – Минск: МГЛУ, 2015. – С. 111-119.

10. Жанабекова А., Пирманова К. (2019) Технология программы полуавтоматической метаразметки казахского национального корпуса // Актуальные проблемы современной лингвистики и гуманитарных наук: сборник статей ХІ Всероссийской научно-методической конференции с международным участием. – М.: РУДН, 2019. – С. 465-474.

11. Қҧлманов С., Жаңабекова А.Ҽ., Ҽшімбаева Н.М., Бисенғали А.З., Шҥленбаев Н.Қ., Қордабай Б.Қ. (2022) Корпусқа енгізілетін мҽтіндердегі сҿздерге морфологиялық белгіленім қою жҽне оларды компьютерлік бағдарламаға енгізу мҽселелері // Л.Н. Гумилев атындағы Еуразия ҧлттық университетінің Хабаршысы. «Филология ғылымдары» сериясы. № 3(140)/2022. – 103-113-бет (DOI: https://doi.org/10.32523/2616-678X-2022-140-3-103-113) https://bulphil.enu.kz/index.php/main/article/view/29/9.

12. Койбагаров К.Ч., Мусабаев Р.Р., Кулманов С.К. (2012) Разработка алгоритмов автоматического анализа словоформ казахского языка // «Қазіргі қазақ тіл білімі: қолданбалы лингвистиканың ҿзекті мҽселелері»: халықаралық ғылыми-теориялық конференция материалдарының жинағы. –Алматы, А.Байтҧрсынҧлы атындағы Тіл білімі институты, 2012. – С.83-87.

13. Lauridsen, Karen. (1996) Text Corpora and Contrastive Linguistics: Which Type of Corpus for which Type of Analysis? In: Aijmer, Karin /Altenberg, Bengt /Johannson, Mark (eds) Languages in Contrast. Papers from a Symposium on Text-based Cross Linguistic Studies. Lund: Lund University Press. – 1996. –P. 63-72.

14. Захаров В.П. (2020) Корпусная лингвистика. – Петербург, 2020. – 234 с.

15. Добровольский Д.О. (2015) Лингвоспецифичная лексика в корпусах параллельных текстов / Д.О.Добровольский // Речевые жанры современного общения. Тезисы докладов междунар. конф. «11-е Шмелевские чтения (23-25 февр. 2015)». – М.: ИРЯ РАН, 2015. – С. 47-49.

16. Добровольский Д.О. (2009) Корпус параллельных текстов в исследовании культурно-специфичной лексики // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. – СПб.: Нестор-История, 2009. – С. 383-401.

17. Steinberger Ralf, Mohamed Ebrahim, Alexandros Poulis, Manuel Carrasco-Benitez, Patrick Schlüter, Marek Przybyszewski & Signe Gilbro. (2014) An overview of the European Union's highly multilingual parallel corpora. Language Resources and Evaluation Journal (LRE) 2014. DOI: 10.1007/s10579-014-9277-0.

18. Waldenfels R. (2006) Compiling a parallel corpus of Slavic languages. Text strategies, tools and the question of lemmatization in alignment // Beitrage der Europaischen Slavistischen Linguistik (POLYSLAV). 9. Munchen, 2006. –S. 123- 138.

19. Сичинава Д.В. (2015) Параллельные тексты в составе национального корпуса русского языка: новые направления развития и результаты // Труды Института русского языка РАН. – М., 2015. – С.194-234.

20. Тао Ю., Захаров В.П. (2015) Разработка и исползование параллельного корпуса русского и китайского языков // НТИ. Сер. 2. Информ. Процессы и системы. 2015. №4. – С. 18-27.

21. Ҽуезов М. (2009а) Абай жолы: Роман-эпопея. Бірінші кітап. – Алматы: «Жазушы», 2009. – 376 бет. – «Қазақтың 100 романы» сериясы

22. Ҽуезов М. (2009ҽ) Абай жолы: Роман-эпопея. Екінші кітап. – Алматы: «Жазушы», 2009. – 432 бет. – «Қазақтың 100 романы» сериясы

23. Ҽуезов М. (2009б) Абай жолы: Роман-эпопея. Ҥшінші кітап. – Алматы: «Жазушы», 2009. – 384 бет. – «Қазақтың 100 романы» сериясы

24. Ҽуезов М. (2009в) Абай жолы: Роман-эпопея. Тҿрінші кітап. – Алматы: «Жазушы», 2009. – 400 бет. – «Қазақтың 100 романы» сериясы

25. Ауэзов М. (2012а) – Путь Абая. / Перевод А. Кима. – Алматы: ИД «Жибек жолы», 2012. Кн. 1. – 568 с.

26. Ауэзов М. (2012б) – Путь Абая. / Перевод А. Кима. – Алматы: ИД «Жибек жолы», 2012. Кн. 2. – 556 с.

27. Ауэзов М. (2012в) – Путь Абая. / Перевод А. Кима. – Алматы: ИД «Жибек жолы», 2012. Кн. 3. – 504 с.

28. Ауэзов М. (2012) – Путь Абая. / Перевод А. Кима. – Алматы: ИД «Жибек жолы», 2012. Кн. 4. – 528 с.

29. Englund-Dimitrova B. (1999) Tolkens roll: perspektiv från nyare forskning och implikatoner för tolkutbildning // Материалы Научно-практического семинара по преподаванию устного перевода (шведский язык/русский язык). – М., 1999. – С. 36-47.

30. Анастасьев Н. (2007) Третье свидание // Ҽдебиет айдыны. 2007. –№ 44 (141). – С. 9.

31. Куттыкадам С. (2007) Заветы Мухтара // Мысль. – 2007. – № 11. – С. 2.

32. Ананьева С. (2009) «Путь Абая» М.О. Ауэзова в переводе А. Кима // Керуен. – 2009. – № 2. – С. 136-157.

33. Бельгер Г. (2009) Жизнь – эпопея (эссе-триптих, статьи). – Алматы: ИД «Жибек жолы», 2009. – 144 с.

34. Жаксылыков А.Ж. (2013) Особенности нового перевода романа-эпопеи М.О. Ауэзова «Путь Абая» на русский язык // Художественный перевод и литературный процесс (избранные лекции и исследования). – Алматы, 2013. – С. 167-178.

35. Болатова Г.Ж. (2017) Жаңа «Абай жолы»: А. Кимнің аудармасындағы кейбір ерекшеліктер // ҚазҦУ Хабаршысы. Филология сериясы. No2 (166). 2017. – 320-324-бб. (https://philart.kaznu.kz/index.php/1-FIL/article/view/2357/2262)


Рецензия

Для цитирования:


Ашимбаева Н.М., Бисенгали А.З., Кулманов С.К., Аязбаев Ғ.М., Нурлан М. ПАРАЛЛЕЛЬНЫЙ ПОДКОРПУС КАЗАХСКОГО И РУССКОГО ЯЗЫКОВ: РАЗРАБОТКА, ФУНКЦИОНИРОВАНИЕ И ПРОБЛЕМЫ. Tiltanym. 2023;(2):49-61. https://doi.org/10.55491/2411-6076-2023-2-49-61

For citation:


Ashimbaeva N.M., Bisengali A.Z., Kulmanov S.K., Ayazbaev G.M., Nurlan M. PARALLEL CORPUS OF THE KAZAKH AND RUSSIAN LANGUAGES: DEVELOPMENT, OPERATION AND PROBLEMS. Tiltanym. 2023;(2):49-61. (In Kazakh) https://doi.org/10.55491/2411-6076-2023-2-49-61

Просмотров: 482


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2411-6076 (Print)
ISSN 2709-135X (Online)