Руско-български преводачески корпус


	УСПОРЕДЕН КОРПУС НА РУСКИ И БЪЛГАРСКИ ТЕКСТОВЕ

Структура на корпуса

Корпусът е разработен в две основни направления:

- база данни на руски и български успоредни текстове;
- база данни на български и руски успоредни текстове;

Базата данни на руските и българските успоредни текстове включва произведения от различни жанрове на художествената проза и публицистиката.

Източник	Процент словоупотреби	Брой заглавия
Художествена литературa	(94,60)	(32)
романи	76,34	14
повести	13,34	6
разкази	3,82	11
пиеси	1,10	1
Публицистика	(5,40)	(10)
мемуари, документалистика	4,57	1
фейлетони	0,83	9

Базата данни на българските и руските успоредни текстове в момента се състои само от произведения на художествената проза.

	Източник	Процент словоупотреби	Брой заглавия
1.	Художествена литературa	100 %	(20)
1.1.	романи	84,09	13
1.2.	повести	10,88	3
1.3.	новели	1,33	2
1.4.	разкази	3,70	2

Забележка. В корпуса не са включени текстове от поезията поради характерната за този жанр висока степен на субективност както в използването на оригиналния език, така и в преводите.
Предвижда се да бъдат включени текстове от различни периоди – от произведения като се започне от ХІХ в. и се стигне до съвременни творби. До този момент хронологията на руските текстовете изглежда по следния начин:

	Период	Процент словоупотреби	Брой заглавия
1.	Произведения от XIX век	16,68	12
2.	Произведения от XX и XXI век	83,32	30

Българските текстове също се отнасят към посочените по-горе периоди:

	Период	Процент словоупотреби	Брой заглавия
1.	Произведения от XIX век	8,88	1
2.	Произведения от XX век	91,12	19

        Всяко произведение и неговият превод в корпуса се оформят във вид на успоредни текстове, подравнени по изречения. Автоматичното подравняване се коригира допълнително от формална гледна точка, т.е. ако преводачът по някакви причини е разделил руското изречение в своя превод, то двете или повече преводни български изречения се подравняват с изходното руско изречение.
        Подравнените по този начин изречения в повечето случаи са достатъчен контекст, за да се изясни доколко точно е преведена дадена дума, но не са малко и случаите, в които това е невъзможно. Затова е предвидена възможността за извеждане на допълнителен контекст до 10 изречения.
        Успоредният корпус е съставен от сканирани оригинални и преводни произведения, в които са редактирани отделни печатни грешки.

Списъци на словоформите

Списъците всъщност са честотни речници на всички руски и български словоформи, които се срещат в базите данни.

катедра "Русистика" при ВТУ "Св. св. Кирил и Методий"