Preview

Tiltanym

Расширенный поиск

ЛЕКСИКО-ГРАММАТИЧЕСКАЯ РАЗМЕТКА ТЕКСТОВ ИСТОРИЧЕСКОГО ПОДКОРПУСА

https://doi.org/10.55491/2411-6076-2023-3-163-172

Аннотация

База определенного национального корпуса не ограничивается информацией в виде метаописаний и метаданых введеных текстов. Также необходимо разработать лингвистические разметки. Лингвистическая разметка – это лингвистическая информация, охарактеризованная каждой лексической единице в тексте по орфографическим, фонетическим, лексическим, грамматическим признакам. Однако разработка лингвистической разметки исторического подкорпуса является одной из сложных задач требующих глубокого исследования. Это связано с тем, что большинство текстов внесенные в исторический подкорпус написаны арабской графикой. А тексты средневековья написанные арабской графикой транскрибировались по-разному. Разработка исторического подкорпуса имеет сложности как теоретически, так и технически, по сравнению с другими подкорпусами. В связи с этим целью статьи является рассмотрение вопроса лингвистических разметок текстов исторического подкорпуса, которые впервые разрабатываются в Институте языкознания имени Ахмета Байтурсынова. Задачи: определить лингвистических, из них лексико-грамматических разметок для транскрибированных текстов; учитывать опыты других стран при разработки лексико-грамматических разметок; анализировать транскрибированнных текстов с арабской графики на кириллическую графику; выявить вариативности транскрибированных слов; описать механизм функционирования программы лексико-грамматических разметок.

В ходе исследования используется описательный, историко-сравнительный, лингвотекстологический, лингвостатистические методы.

В результате исследования при разработке разметок рассматривались опыты разработок исторического подкорпуса руского языка; аназировались транскрибирования текстов написанные арабской графикой разного периода средневековья; определены лексико-грамматические разметки для траскрибированных текстов; описаны механизмы лексико-грамматической поисковой системы для транскрибированных текстов.

Практическая значимость. Разработка лексико-грамматических разметок для транскрибированных текстов внесенные в исторический подкорпус будет полезным лингвистическим инструменом для изучения эволюции определенной лексической единицы.

Об авторах

А. Сейтбекова
Институт языкознания имени Ахмета Байтурсынова
Казахстан

Алматы



А. Фазылжанова
Институт языкознания имени Ахмета Байтурсынова
Казахстан

Алматы



Г. Аязбаев
Институт языкознания имени Ахмета Байтурсынова
Казахстан

Алматы



Список литературы

1. Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. (2016) К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв // Вестник ПСТГУ. Серия III: Филология. 2016. Вып. 2 (47). С. 7 – 25.

2. Бембеев Е.В. (2012) Коллекции рукописей на старокалмыцком (ойратском) языке XVII–XIX вв. в свете компьютерной обработки: постановка проблемы // Информационные технологии и письменное наследие. El’Manuscript2012: Материалы IV международной научной конференции (Петрозаводск, 3–8 сентября 2012 г.). Петрозаводск, Ижевск, 2012. С. 31–34.

3. Corpus of Historical Portuguese. https://www.clarin.eu/resource-families/historical-corpora. https://www.clarin.eu/resource-families/historical-corpora.

4. Vatri A, McGillivray B. (2018) The Diorisis Ancient Greek Corpus Linguistics and Literature. Research Data Journal for the Humanities and Social Sciences. Издатель: Brill E-ISSN:2452-3666. 2018. page 55–65 https://brill.com/view/journals/rdj/3/1/article-p55_55.xml

5. Симон Э. (2014) Здание корпуса из древневенгерских кодексов. In: Каталин Э. Поцелуй (ред.): Эволюция функциональной левой периферии в венгерском синтаксисе. Оксфорд: Издательство Оксфордского университета, 2014 г.

6. Сердюченко Г. П. !967) Русская транскрипция для языков зарубежного востока. – Москва: Наука, 1967. С 359.

7. Фазылов Э.И. (1971) Староузбекский язык. Хорезмские памятники ХІV века. – Т.2. Ташкент: Фан, 1971. – 778 с.

8. Иванов С. Н. (1969) Родословное древо тюрок Абу-л-Гази-хана. – Ташкент: изд.«Фан» Узбекской ССР, 1969 г. С 202.

9. Әбілқасымов Ә. (2001) Әбілғазы ханның «Түркі шежіресі» және оның тілі. – Алматы: Арыс, 2001. – 246 б.

10. Сыздықова Р. (2004) Ясауи «Хикметтерінің» тілі. – Алматы, Сөздік-Словарь, 2004. – 552 б.

11. Савчук C.О. (2008) Корпус текстов XVIII века в составе национального корпуса русского языка: проблемы и перспективы. 25 июнь 2008 / http://textualheritage.org/lt/el-manusctipt-08-/xviii.html


Рецензия

Для цитирования:


Сейтбекова А., Фазылжанова А., Аязбаев Г. ЛЕКСИКО-ГРАММАТИЧЕСКАЯ РАЗМЕТКА ТЕКСТОВ ИСТОРИЧЕСКОГО ПОДКОРПУСА. Tiltanym. 2023;(3):163-172. https://doi.org/10.55491/2411-6076-2023-3-163-172

For citation:


Seitbekova A., Fazyljanova A., Aiazbayev Ғ. LEXICAL AND GRAMMATICAL MARKUP OF TEXTS OF THE HISTORICAL SUBCORPUS. Tiltanym. 2023;(3):163-172. (In Kazakh) https://doi.org/10.55491/2411-6076-2023-3-163-172

Просмотров: 239


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2411-6076 (Print)
ISSN 2709-135X (Online)