Національний корпус української мови

Національний корпус української мови


На сайті ruscorpora.ru або corpora.yandex.ru поміщений представницький розмічений корпус сучасної української мови обсягом понад 120 млн. Слів. Корпус призначений для всіх, хто цікавиться різними питаннями, пов'язаними з українською мовою: професійних лінгвістів, викладачів мови, школярів і студентів, іноземців, які вивчають українську мову.

Що таке Корпус?

Національний корпус створюється лінгвістами (фахівцями з так званої корпусних лінгвістиці, швидко розвивається сучасної галузі мовознавства) для наукових досліджень і навчання мови. Більшість великих мов світу вже має свої національні корпусу (розрізняються по повноті і рівня наукової обробки текстів). Загальновизнаним зразком є, зокрема, Британський національний корпус (BNC):. на нього орієнтовані багато інших сучасні корпуси. Серед корпусів слов'янських мов виділяється Чеський національний корпус. створений в Карловому університеті Праги.

Національний корпус має дві важливі особливості. По-перше, він характеризується показністю, або збалансованим складом текстів. Це означає, що корпус містить по можливості всі типи письмових та усних текстів, представлених в даній мові (художні різних жанрів, публіцистичні, навчальні, наукові, ділові, розмовні, діалектні і т.п.), і що всі ці тексти входять в корпус по можливості пропорційно їх частці в мові відповідного періоду. Слід мати на увазі, що хороша наочність досягається тільки при значному обсязі корпусу (десятки і сотні мільйонів слововживань). Запланований укладачами обсяг Національного корпусу української мови - 200 млн. Слів.

Чим багатше і різноманітніше розмітка, тим вище наукова і навчальна цінність корпусу. У Національному корпусі української мови в даний час використовується чотири типи розмітки: метатекстового, морфологічна, акцентні і семантична; найближчим часом планується впровадження синтаксичної розмітки. Система розмітки постійно вдосконалюється.
^

Навіщо потрібен національний корпус?

Разрабатиаемий Національний корпус української мови буде охоплювати перш за все період від початку XIX до початку XXI століття: цей період представляє як мову попередніх епох, так і сучасний, в різних соціолінгвістичних варіантах - літературному, розмовному, просторічному, почасти диалектном. У корпус включаються оригінальні (непереказні) твори художньої літератури (проза і драматургія, в подальшому також поезія), що мають культурну значимість, а також представляють інтерес з точки зору мови. Але Національний корпус ні в якій мірі не є тільки корпусом мови художньої літератури. Крім художніх текстів, в корпус у великій кількості включаються і інші зразки письмового (а для сучасного етапу - і усного) мови: мемуари, есеїстика, публіцистика, науково-популярна та наукова література, публічні виступи, приватне листування, щоденники, документи і т. п.
^

Склад і структура Корпуси


В Національний корпус української мови, за задумом його укладачів, будуть включені насамперед тексти, які представляють сучасну українську літературну мову (з початку XIX ст.), Але також і тексти, що представляють давньоукраїнська мова (XI-XIV ст.) І нелітературних форми сучасного українського мови: розмовну, просторечную, діалектних.

Тексти, що представляють сучасну українську літературну мову, в свою чергу, розподіляються по двох великих подкорпусам: корпус ранніх текстів (початок XIX - середина XX століття) і корпус сучасних текстів (середина XX - початок XXI століття).

В даний час на сайті розміщений тільки корпус сучасних текстів (другої половини XX - початку XXI ст.); розміщення інших текстів планується в ході подальшої роботи.

Корпус сучасних текстів. Корпус текстів середини XX - початку XXI століття складається з декількох корпусів, що розрізняються між собою тим, які типи текстів в них представлені і які способи розмітки до них застосовувалися.

Корпус паралельних текстів. Особливим типом корпусу є так званий паралельний корпус, в якому тексту російською мовою зіставлений переклад цього тексту на іншу мову або, навпаки, тексту іноземною мовою зіставлений його переклад на українську мову. Між одиницями оригінального і перекладного тексту (зазвичай - між пропозиціями) за допомогою спеціальної процедури встановлюється відповідність; ця процедура називається вирівнюванням, а тексти, відповідно, вирівняними.

Вирівняний паралельний корпус являє собою важливий інструмент для наукових досліджень (в тому числі і для досліджень з теорії і практики перекладу); він може також використовуватися при навчанні української та іноземних мов.

В даний час на сайті Національного корпусу розміщений невеликий вирівняний паралельний російсько-англійський корпус.
^

параметри текстів

Група факторів стосується цілей створення тексту і його впливу на аудиторію. До параметрів аудиторії, які мають істотний вплив на текст, віднесені її розмір, близькість аудиторії говорить і обмеження на стать, вік і рівень освіти аудиторії. За розміром аудиторії мова ділиться на публічну (більше 50 Новомосковсктелей / слухачів, з підкласами в сотні, десятки тисяч і мільйони) і приватну, в свою чергу підрозділяється на особисту (2 учасника), невелику групу (до 5), групу середніх розмірів (до 20) і колектив. За параметром близькості в більшості випадків публічна аудиторія деперсоналізована (тобто ніяк не знайома говорить). Якщо ж говорить / пише може описати кожного учасника комунікації, їх близькість класифікується за шкалою: гарне особисте знайомство, особисте знайомство, відсутність особистого знайомства.

При побудові корпусу глибина кодування предметної області. зачепленої текстом, не дуже важлива, оскільки корпус не є універсальною енциклопедією. Крім того, загальні класифікації, подібні УДК, рідко застосовні до тексту і в набагато меншому ступені застосовні до усного мовлення, оскільки текст може зачіпати (і, як правило, зачіпає) кілька предметних областей одночасно. При побудові корпусу можна мати грубу класифікацію, що виділяє, наприклад, природні і суспільні науки, політику і економіку, мистецтво і дозвілля, і т.п.
^

Статистика Корпуси

I. Розподіл текстів за видами та іншими метапрізнакам