Введення корпуси та корпусні лінгвістика - студопедія

докт. філол. наук Л.М. Бєляєва (Рос. Гос. Пед. Ун-т ім. А. І. Герцена)

канд. філ. наук С.А. Коваль (С.-Петерб. Держ. Ун-т)

Друкується за постановою

С.-Петербурзького державного університету

Для студентів і аспірантів, що спеціалізуються в області прикладної лінгвістики і автоматизованих систем обробки тексту.

1. Основні поняття

Введення: корпуси та корпусні лінгвістика

Корпусна лінгвістика - розділ комп'ютерної лінгвістики, що займається розробкою загальних принципів побудови і використання лінгвістичних корпусів (корпусів текстів) з використанням комп'ютерних технологій. Під назвою лінгвістичний, або мовної, корпус текстів розуміється великий, представлений в електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений для вирішення конкретних лінгвістичних завдань. У поняття «корпус текстів» входить також система управління текстовими та лінгвістичними даними, яку останнім часом найчастіше називають корпусним менеджером (або корпус-менеджером) (англ. Corpus manager). Це спеціалізована пошукова система, що включає програмні засоби для пошуку даних в корпусі, отримання статистичної інформації і надання результатів користувачеві в зручній формі.

Доцільність створення та зміст використання корпусів визначається такими передумовами:

1) досить великий (репрезентативний) обсяг корпусу гарантує типовість даних і забезпечує повноту уявлення всього спектра мовних явищ;

2) дані різного типу знаходяться в корпусі в своїй природній контекстної формі, що створює можливість їх всебічного і об'єктивного вивчення;

3) один раз створений і підготовлений масив даних може використовуватися багаторазово, багатьма дослідниками і в різних цілях.

Можна сказати, що всі сучасні лінгвістичні дослідження і роботи зі складання словників і граматик так чи інакше орієнтовані на використання представницьких корпусів текстів. Розвиток сучасних інтелектуальних програмних систем, призначених для обробки текстів на природній мові, також вимагає великої експериментальної лінгвістичної бази. Попит на корпусні дані збігся з появою відповідних технічних можливостей.

У першій половині 90-х рр. корпусні лінгвістика остаточно сформувалася як окремий розділ науки про мову. При цьому вона тісно взаємодіє з комп'ютерною лінгвістикою, використовуючи її досягнення і в свою чергу збагачуючи її.

Можна сказати, що корпусні лінгвістика має своїм предметом теоретичні основи і практичні механізми створення і використання представницьких масивів мовних даних, призначених для лінгвістичних досліджень в інтересах широкого кола користувачів.