Що таке національний корпус української мови ()
Що таке Національний корпус української мови (www.ruscorpora.ru)?
Щоб відповісти на питання, що таке Національний корпус української мови, треба перш за все відповісти на питання, що таке корпус взагалі і Національний корпус зокрема. Корпус деякого мови - це зібрання текстів цією мовою, представлене в електронній формі і забезпечене науковим апаратом. Апарат, «вбудований» в корпус, зазвичай називається «розміткою», або «анотацією», корпусу; корпус тим краще, чим повніше і досконаліше його анотація. Власне, наука про корпусах ( «корпусні лінгвістика») - це перш за все наука про те, як зробити хорошу розмітку корпусу.
Учительська Газета
Під час навчання пройде фінальний етап конкурсу. Переможець буде премійований словниками та довідниками для комплектації особистого кабінету. Всі фіналісти отримають заохочувальні призи, а всі учасники конкурсу - пам'ятні грамоти.
Це тільки один, найпростіший приклад, який показує, для чого може бути потрібна розмітка. Насправді добре розмічений текст для фахівця виявляється абсолютно безцінним. Адже в своїй дослідницькій роботі лінгвісти залежать перш за все від кількості і якості зібраного матеріалу. У багатьох ще свіжі в пам'яті ті часи, коли приклади виписувалися з тексту і заносилися на картки. Зараз картки пішли в минуле, але сама процедура вибору прикладів з тексту робиться людиною і насилу піддається автоматизації. Розмічені корпуси - перший серйозний інструмент, що дозволяє істотно прискорити і спростити цю процедуру. Іншими словами, те, на що у дослідників попередніх поколінь йшли тижні, а то й місяці напруженої праці, за допомогою корпусу можна зробити за лічені хвилини.
Зрозуміло, що Національний корпус повинен бути перш за все великим: його обсяг вимірюється сотнями мільйонів слововживань (для порівняння можна сказати, що, наприклад, повне зібрання творів Ф. М. Достоєвського налічує «всього» близько двох мільйонів слів). Але, крім того, він - і це навіть важливіше - повинен бути представницьким. Інакше кажучи, він повинен містити всі типи текстів, представлені в даній мові в даний історичний період, і при цьому утримувати їх в правильній пропорції.
член-кореспондент РАН, завідувач відділом корпусної лінгвістики
і лінгвістичної поетики Інституту української мови
Клуб шанувальників української мови