УСПОРЕДЕН КОРПУС НА РУСКИ И БЪЛГАРСКИ ТЕКСТОВЕ

Структура на корпуса

Корпусът е разработен в две основни направления:

- база данни на руски и български успоредни текстове;
     - база данни на български и руски успоредни текстове;

Базата данни на руските и българските успоредни текстове включва произведения от различни жанрове на художествената проза и публицистиката.

Източник Процент словоупотреби Брой заглавия
Художествена литературa (94,60) (32)
романи 76,34 14
повести 13,34 6
разкази 3,82 11
пиеси 1,10 1
Публицистика (5,40) (10)
мемуари, документалистика 4,57 1
фейлетони 0,83 9

Базата данни на българските и руските успоредни текстове в момента се състои само от произведения на художествената проза.

Източник Процент словоупотреби Брой заглавия
1. Художествена литературa 100 % (20)
1.1. романи 84,09 13
1.2. повести 10,88 3
1.3. новели 1,33 2
1.4. разкази 3,70 2

        Забележка. В корпуса не са включени текстове от поезията поради характерната за този жанр висока степен на субективност както в използването на оригиналния език, така и в преводите.
        Предвижда се да бъдат включени текстове от различни периоди – от произведения като се започне от ХІХ в. и се стигне до съвременни творби. До този момент хронологията на руските текстовете изглежда по следния начин:

  Период Процент словоупотреби Брой заглавия
1. Произведения от XIX век 16,68 12
2. Произведения от XX и XXI век 83,32 30

Българските текстове също се отнасят към посочените по-горе периоди:

  Период Процент словоупотреби Брой заглавия
1. Произведения от XIX век 8,88 1
2. Произведения от XX век 91,12 19

        Всяко произведение и неговият превод в корпуса се оформят във вид на успоредни текстове, подравнени по изречения. Автоматичното подравняване се коригира допълнително от формална гледна точка, т.е. ако преводачът по някакви причини е разделил руското изречение в своя превод, то двете или повече преводни български изречения се подравняват с изходното руско изречение.
        Подравнените по този начин изречения в повечето случаи са достатъчен контекст, за да се изясни доколко точно е преведена дадена дума, но не са малко и случаите, в които това е невъзможно. Затова е предвидена възможността за извеждане на допълнителен контекст до 10 изречения.
        Успоредният корпус е съставен от сканирани оригинални и преводни произведения, в които са редактирани отделни печатни грешки.

Списъци на словоформите

        Списъците всъщност са честотни речници на всички руски и български словоформи, които се срещат в базите данни.



катедра "Русистика" при ВТУ "Св. св. Кирил и Методий"