УСПОРЕДЕН КОРПУС НА РУСКИ И БЪЛГАРСКИ ТЕКСТОВЕ |
||
Структура на корпуса
Корпусът е разработен в две основни направления:
- база данни на руски и български успоредни текстове;
- база данни на български и руски успоредни текстове;
Базата данни на руските и българските успоредни текстове включва произведения от различни жанрове на художествената проза и публицистиката.
Източник | Процент словоупотреби | Брой заглавия |
Художествена литературa | (94,60) | (32) |
романи | 76,34 | 14 |
повести | 13,34 | 6 |
разкази | 3,82 | 11 |
пиеси | 1,10 | 1 |
Публицистика | (5,40) | (10) |
мемуари, документалистика | 4,57 | 1 |
фейлетони | 0,83 | 9 |
Базата данни на българските и руските успоредни текстове в момента се състои само от произведения на художествената проза.
Източник | Процент словоупотреби | Брой заглавия | |
1. | Художествена литературa | 100 % | (20) |
1.1. | романи | 84,09 | 13 |
1.2. | повести | 10,88 | 3 |
1.3. | новели | 1,33 | 2 |
1.4. | разкази | 3,70 | 2 |
Забележка. В корпуса не са
включени текстове от поезията поради характерната за този жанр висока степен на
субективност както в използването на оригиналния език, така и в преводите.
Предвижда се да бъдат включени текстове от различни периоди – от произведения като се започне от ХІХ в. и се стигне до съвременни творби. До този момент хронологията на руските текстовете изглежда по следния начин:
Период | Процент словоупотреби | Брой заглавия | |
1. | Произведения от XIX век | 16,68 | 12 |
2. | Произведения от XX и XXI век | 83,32 | 30 |
Българските текстове също се отнасят към посочените по-горе периоди:
Период | Процент словоупотреби | Брой заглавия | |
1. | Произведения от XIX век | 8,88 | 1 |
2. | Произведения от XX век | 91,12 | 19 |
Всяко произведение и неговият превод в корпуса се оформят във вид на успоредни текстове, подравнени по изречения. Автоматичното подравняване се коригира допълнително от формална гледна точка, т.е. ако преводачът по някакви причини е разделил руското изречение в своя превод, то двете или повече преводни български изречения се подравняват с изходното руско изречение.
Подравнените по този начин изречения в повечето случаи са достатъчен контекст, за да се изясни доколко точно е преведена дадена дума, но не са малко и случаите, в които това е невъзможно. Затова е предвидена възможността за извеждане на допълнителен контекст до 10 изречения.
Успоредният корпус е съставен от сканирани оригинални и преводни произведения, в които са редактирани отделни печатни грешки.
Списъци на словоформите
Списъците всъщност са честотни речници на всички руски и български словоформи, които се срещат в базите данни.
катедра "Русистика" при ВТУ "Св. св. Кирил и Методий" |