КОРПУС ПАРАЛЛЕЛЬНЫХ РУССКИХ И БОЛГАРСКИХ ТЕКСТОВ

Структура корпуса

        Корпус разработан в двух основных направлениях:
        – база данных русских и болгарских параллельных текстов;
        - база данных болгарских и русских параллельных текстов.

База данных русских и болгарских параллельных текстов включает произведения художественной прозы и публицистической литературы.

 

  Источник Процент текста Кол-во заглавий
1. Художественная литература (96,60) (32)
1.1. романы 76,34 14
1.2 повести 13,34 6
1.3 рассказы 3,82 11
1.4 пьесы 1,10 1
2. Публицистика (5,40) (10)
2.1. мемуары, документалистика 4,57 1
2.2 фельетоны 0,83 9

База данных русских и болгарских параллельных текстов на данном этапе состоит только из произведений художественной прозы.

  Источник Процент текста Кол-во заглавий
1. Художественная литература (96,60) (32)
1.1. романы 84.09 13
1.2 повести 10,88 3
1.3 новеллы 1,33 2
1.4 рассказы 3,70 2

Примечание Поэтические тексты не включаются по причине специфики этого жанра, характеризующегося большой долей субъективности как в использовании языка оригинала, так и в переводах.

Предполагается включение произведений различных периодов, начиная с произведений XIX века и кончая произведениями нашего времени. На данном этапе хронология русских текстов выглядит следующим образом:

  Период Процент словоупотреблений Кол-во заглавий
1. Произведения XIX века 16,68 12
2. Произведения XX и XXI века 83,32 30

Болгарские тексты также относятся к указанным выше периодам:

  Период Процент словоупотреблений Кол-во заглавий
1. Произведения XIX века 8,88 1
2. Произведения XX и XXI века 91,12 19

Каждое произведение и его перевод в корпусе оформляются в виде параллельных текстов, выровненных по предложениям. Автоматическое выравнивание скорректировано с формальной точки зрения, т.е. если переводчик по каким-либо причинам расчленил русское предложение в переводе, то два или более болгарских предложения выравниваются с одним русским.

Выровненные таким образом предложения в большинстве случаев являются достаточным контекстом для выяснения точности перевода определенного слова, но немалочисленны и случаи, когда это невозможно сделать. Поэтому предвидится возможность просмотра дополнительного контекста из не менее десяти предложений.

Корпус параллельных текстов составлялся на базе сканированных произведений и их переводов, в которые вносились отдельные редакторские правки, связанные с опечатками.



Списки словоформ

Списки по своей сути представлят собой частотные словари всех русских и болгарских словоформ, встречающихся в базах данных.



Кафедра русистики Великотырновского университета имени Святых Кирилла и Мефодия