Паралельні корпуси текстів
Лінгвіст Дмитро Добровольський про корпусних лінгвістиці, труднощі перекладу і принципи організації різних корпусів
Хочеться зрозуміти, що це таке, як вони влаштовані і кому і навіщо вони потрібні. Ось на ці три питання я спробую відповісти. Паралельний корпус - це двомовний корпус, тобто текст оригіналу та його переклад на якийсь інший мову, причому ці два тексти не просто лежать поруч один з одним, а повинні бути вирівняні: окремі фрагменти оригіналу повинні збігатися з відповідними фрагментами перекладу. Саме це дозволяє використовувати паралельний корпус як інструмент дослідження.
Крім вирівнювання в паралельному корпусі повинна бути розмітка. Є різні види розмітки: метатекстового, граматична і семантична. Це різні теги, які приписуються окремим словами або всьому тексту в цілому. Для чого вони потрібні? Якщо у мене текст не розмічений, то я не можу шукати якусь граматичну форму. Я, наприклад, не можу попросити все пасивні дієприкметники множини, а якщо у мене текст розмічений, якщо стоять відповідні теги, то таке завдання здійсненне, і я можу вирішувати якусь дослідницьку задачу: дивитися, як та чи інша граматична форма перекладається на інша мова. Семантична розмітка - це теж дуже цікава річ. Наприклад, я можу попросити видати мені все контексти, в яких присутній позначення предмета одягу. «Піджак», «сорочка», «штани» - вони, напевно, навряд чи потрібні, тому що ми і так знаємо, як переводити ці слова на інші мови, але «чумарці», «сіряк», «сіряк», «кожух »- знайти всі ці слова і подивитися, як різні перекладачі в різних контекстах з ними працюють, буває дуже цікаво, тим більше що такі слова не в будь-якому словнику знайдеш.
Ще паралельні корпуси допомагають в дослідженні так званої лінгвоспеціфічной лексики, тобто тих слів, у яких немає хороших еквівалентів в інших мовах. Раніше в основному склад лінгвоспеціфічного в мові визначався інтуїтивно: дослідник уявляв собі, що ось в цьому слові є щось споконвіку російське або споконвічно англійське. А зараз це можна встановити за допомогою корпуса: якщо якесь слово весь час переводиться по-різному і у нього немає нормального еквівалента, то, значить, воно, швидше за все, лінгвоспеціфічно.
І ось цікавим чином таким лінгвоспеціфічним українським словом виявилося «глушині». По-німецьки начебто є дуже схожі слова, використовувані в перекладах, типу Einöde або Kaff, але це все не те ж саме. Einöde передбачає, що там нічого і нікого немає, там порожньо. А Kaff - це якийсь маленький населений пункт, де нудно і погано. Але глушині - це ж зовсім не обов'язково маленький населений пункт, тут важливо зовсім інше, що це далеко від центру, і, мабуть, це дійсно пов'язано з культурою. Тобто в німецькій культурі не так важливо жити близько до столиць, тому що якісь вогнища культури є і в інших місцях. А російське простір, мабуть, спочатку було так влаштовано, що ця ідея віддаленості від центру лексікалізованние, і слово «глушині» саме про це.
І останнє, що я хотів сказати: паралельні корпуси нашої програми «Національний корпус української мови» включають не тільки німецький, про який я сьогодні говорив, або англійська. Паралельних корпусів дуже багато. У нас є французька, іспанська, італійська, польська, белоукраінскій, українську, латиську, вірменський, є навіть багатомовний корпус, коли той чи інший текст зіставляється одночасно з декількома його перекладами на різні мови. І всім цим можна користуватися, це все безкоштовно і легко доступно онлайн.
