Як створюється словник української мови з комп’ютером і без
Як створюється словник української мови з комп'ютером і без
Олександр Костинский. Цифрові технології до невпізнання змінили багато галузей людської діяльності. Деякі з них на увазі, і зміни кидаються в очі, а деякі ні. Сьогодні мова піде про створення звичайних паперових словників, на прикладі словників української мови. Тут, в області з тисячолітньою традицією, теж відбуваються драматичні перетворення. У тисячі разів розширюється словникова база, скорочується на порядок час підготовки словника і різко зменшується його ціна.
Спочатку Дмитро Дмитрієв розповість про традиційною технологією створення словників.
Дмитро Дмитрієв. Я працюю в Інституті лінгвістичних досліджень АН РАН в Харкові, раніше він називався Інститут мовознавства. Саме тут розташовується найбільша картотека сучасної української мови, яка почала формуватися ще в 19 столітті і продовжує поповнюватися донині. У нас кілька поверхів, заповнених великими шафами, в які вставляються шухлядки.
Олександр Костинский. На кожній картці слово?
Дмитро Дмитрієв. На кожній картці слово і цитата. Багато поколінь людей, Новомосковський книгу, виписували сподобалися їм фрагменти.
Олександр Костинский. Люди з вашого інституту?
Дмитро Дмитрієв. Не тільки. Працювало і багато добровольців. Людина Новомосковскл книгу, виписував щось і підкреслював ті слова, які, на його думку, повинні бути включені в словник. Таким чином формувалися національні картотеки. Такі картотеки, природно, є і в Англії, Німеччині та інших країнах.
Олександр Костинский. А скільки цих карток накопичилося?
Дмитро Дмитрієв. Їх зараз приблизно шість мільйонів. Сьогодні стоїть завдання перекладу їх в цифрову форму - ретроконверсія, але зробити це дуже важко, тому що картки рукописні.
Олександр Костинский. Виникає проблема розпізнавання?
Дмитро Дмитрієв. Так, тексти з ятями, ерамі. Іноді прочитати таку картку дуже важко.
Олександр Костинский. І як створювалися з цих карток словники?
Олександр Костинский. А чому він такий великий, 17 томів?
Олександр Костинский. Словники робляться довго?
Дмитро Дмитрієв. Довго довго. Між іншим, друге видання цього словника - двадцятитомна словник-наша національна гордість, до сих пір ще не вийшов.
Олександр Костинский. А скільки вийшло томів?
Дмитро Дмитрієв. Вийшло, приблизно, шість томів і на цьому справа застопорилася, тому що попало на час перебудови і початок 90-х років, коли були перебої з фінансуванням і так далі. На жаль, все застрягло через те, що процес роботи з картками дуже трудомісткий.
Олександр Костинский. Він ще й дорогий.
Дмитро Дмитрієв. Звичайно, дуже дорогий. І словник змінюється від томи до того. Якщо ви відкриєте перші три томи Великого академічного словника, то побачите, що вони побудовані трохи за іншим принципом ніж в наступних томах.
Олександр Костинский. Змінюється уявлення про те, як робити словники. Характерне час видання словника більше, ніж час зміни теорії створення словників.
Дмитро Дмитрієв. Так напевно. Або ще цікавий епізод: люди, які роблять якусь словосполучення, наприклад, "собаку з'їсти", залишали одне зі слів на потім, даючи посилання, мовляв це буде зроблено в наступному томі. А в наступному томі, людина, яка робить цей матеріал, забуває повернутися назад, подивитися які були посилання на його шматочок алфавіту (всім роздавали по шматочку алфавіту). Так виникають прямі посилання в нікуди. Це теж проблема, яку без комп'ютера дуже важко вирішити.
Олександр Костинский. Якщо подивитися на повоєнний час, та й післяреволюційний, то життя так швидко змінювалася, з'являлося так багато нових слів, що реально словник в один період часу повинен був описувати одну словникову базу, а в інший період іншу. Фактично він був фотографією мови складається з шматків різних періодів.
Олександр Костинский. Хіба там НЕ алфавітний порядок?
Олександр Костинский. Структурність статті була закладена вже тоді прямо в картки?
Олександр Костинский. А якщо таких перестановок п'ять-десять?
Дмитро Дмитрієв. Саме тому словники виходять так довго протягом 30-40 років і до сих пір ми не бачимо на полицях наших магазинів академічних видань. Той же Великий академічний словник, про який я розповідаю, сьогодні - бібліографічна рідкість.
Олександр Костинский. Зараз, коли прийшли цифрові технології, є якесь зрушення або як і раніше картки розсипаються, перенумеровуються?
Дмитро Дмитрієв. Можна сказати, що сьогодні в академічних інститутах співіснують дві ці традиції. Ми не закликаємо всі строго робити на комп'ютері, але ми з колегами в лабораторії інформаційних технологій розробили комплекс відкритих програмних технологій створення словників, і пропонуємо цим користуватися. Більш того, на цих технологіях ми самі зробили серію тлумачних словників української мови (і не тільки тямущих), які вже цілком зроблені в електронному вигляді. Ми від початку до кінця не використовували ніякої паперової технології.
Олександр Костинский. Це драматична зміна - від чотирьохсот до сорока тисяч - різниця в два порядки.
Дмитро Дмитрієв. Так, але я не хочу сказати, що лексикограф буквально прочитує кожну з цих цитат. Природно, це неможливо, але, по крайней мере, перед ним ці цитати завжди є, він проглядає їх, вибирає те, що привертає його увагу, він може якось обмежити сполучуваність. Але база, основа вибору у нього величезна. Якщо він раптом сумнівається в якомусь виразі, наприклад, чи може від слова "моментальний" бути утворена порівняльна ступінь "моментально". Здоровий глузд говорить, що не можна, але пошук по базі показує, що може бути, і в художніх текстах цілком вживається подібна річ.
Олександр Костинский. Перше, що ми виділили - радикально змінилася словникова база. Що ще змінилося?
Олександр Костинский. Тексти тим і чудові, що вони вимагають зовсім невеликих ресурсів комп'ютера.
Дмитро Дмитрієв. Це відбувається в тому випадку, якщо ви працюєте з відкритими технологіями розмітки тексту, коли ви використовуєте коди для маркування всіх зон - зону тлумачення, зону ілюстрацій, зону граматики.
Олександр Костинский. Трохи докладніше, як це відбувається, що робить сучасний лексикограф?
Дмитро Дмитрієв. Ви можете уявити собі сучасну словникову статтю у вигляді довгого сувою або, якщо слухачі представляють, то це файл, де кожен рядок містить якусь одиницю інформації, наприклад, ставиться маркер [цит] в кутових дужках, що означає почати цитату, далі друкується сам текст цитати і такий же завершальний маркер. Багато слухачів напевно знайомі з мовою розмітки HTML, який використовується для гіпертекстової розмітки в Інтернеті. У нас фактично один з варіантів такої розмітки.
Олександр Костинский. Спочатку людина повинна з паперової картки ввести текст в електронний вигляд, це початковий етап.
Дмитро Дмитрієв. Якщо говорити про технології в нашій серії "Словники академії української", то все відбувається не так. У нас зліва був екран цитатної бази даних, а праворуч екран словникової статті, яку ви пишете. Тобто, фактично ніякої паперової технології не використовується.
Олександр Костинский. Але ж на початку у вас все було на картках.
Олександр Костинский. А розмітка у вихідних текстах статей призводить до того, що ви можете потім автоматично з цього тексту поміщати статті в бази даних.
Дмитро Дмитрієв. Природно, справа в тому, що ця розмітка дає свободу створення тексту. Ви можете самі придумувати маркери, які хочете, це не жорстка задана структура - якщо вам необхідний новий тип інформації, скажімо яке-небудь джерело вказати або рік появи цього слова або цитати, етимологічні відомості, ви просто придумуєте новий маркер, починаєте його використовувати і просто повідомляєте адміністратору, щоб він завів нове поле. Олег Садів Найголовніше, що можна робити з мовними базами даних, це певні інформаційні зрізи всього обсягу. Дійсно, може бути повний словник, де все словоформи, а можуть бути короткі словники, де все те ж саме дається в скороченому вигляді.
Олександр Костинский. Виходить фабрика словників.
Дмитро Дмитрієв. Наше видавництво стало охоче з нами співпрацювати, тому що вони побачили якомога легко отримувати словники різних форматів. Якщо ви приходите в магазин і вам пропонують купити словник тільки за півтори тисячі рублів, а у вас їх немає, то це неправильно, а якщо ви можете вибрати потрібний вам словник за розміром, по вартості, по змістовному наповненню, то у вас є певна свобода вибору. Ми намагалися зробити саме так, щоб ці маленькі, середні і великі словники писали різні люди, а одна команда.
Олександр Костинский. Виходить, існує загальна база, з якої можна даючи завдання на верстку отримувати різні словники. Олег Садів Різні словники, в різних форматах, для різних типів носіїв, для різних форм представлення.
Олександр Костинский. Напевно, це справедливо.
Дмитро Дмитрієв. Ймовірно, так. По крайней мере, коли ми отримували такі результати і, природно, при кожному слові ми ставимо особливий значок, який показує, наскільки часто ми його використовуємо в мові, то деякі люди дивувалися.
Олександр Костинский. Все готується в електронному вигляді, а чи існують електронні версії цих словників?
Дмитро Дмитрієв. Спочатку тексти існують у вигляді електронних документів, з яких можна отримувати і роздруківки, зокрема паперові словники виникли, як результат автоматичної верстки. Ніхто спеціально не сидів, сторінки мишкою не створював.
Олександр Костинский. Виходить, що у вас автоматична верстка словника.
Олександр Костинский. Ви користувалися рішеннями, які були знайдені в академічному середовищі за кордоном?
Дмитро Дмитрієв. Природно, хоча не можна сказати, що ми винаходили велосипед. Навпаки, ми дотримувалися всіх стандартними технологіями, які вже розвиваються багато років в Європі.
Олександр Костинский. Не тільки вУкаіни так роблять словники?
Дмитро Дмитрієв. Не тільки. Ми були дуже здивовані, коли під час нашої співпраці ми зіткнулися з англійськими лексикографами. Ми пробували з ними починати спільний проект. Я думаю, що ми ще повернемося до двомовним словникам. Вони надіслали нам свої матеріали, і ми були здивовані, що використовуються ті ж самі технології і в оксфордському словнику, який займає лідируючі позиції.
Олександр Костинский. Мабуть, сама логіка побудови словника призводить до схожим рішенням.
Дмитро Дмитрієв. І потім, це дуже економічно обґрунтована модель. Олег Садів Знову ж, вкрай важлива відкритість технологій, відкритість стандартів. Коли люди займаються творчою роботою їм зазвичай якісь готові рішення, які можна піти в магазин і купити не підходять - інструмент потрібно робити під себе.
Олександр Костинский. Чи можемо ми сказати, що не тільки технарі, не тільки ті люди, які з самого початку не боялися комп'ютерів, але і гуманітарії, куди гуманітарні складання українських або російсько-англійських словників, що ці люди теж зможуть отримати дуже серйозну користь для використання цифрових технологій.
Дмитро Дмитрієв. Так, не тільки можуть, а й реально це роблять. В нашій команді приблизно 12 лексикографів, практично ніхто не є технічним фахівцем в цій галузі. Саме завдяки тому, що ми вибрали ці технології, вони працювали на нас. У нас не було штату програмістів, все робили ми самі.
Олександр Костинский. А скільки коштує підготовка якоїсь одиниці словника.
Дмитро Дмитрієв. Просто можу розповісти коротко про наш бюджет і тих бюджетах, які є у Академії наук. Ви розумієте як все це відбувається в рамках Академії: люди приходять на роботу, отримують здавалося б дуже невеликі зарплати - півтори-дві тисячі рублів, але в принципі ніхто з них нічого і не вимагає. Ми знаємо, як багато років існують інститути, які видають на гора не так вже й багато продукції. Тому, якщо взяти чисту продукцію і розділити її на ці мізерні зарплати, то виходить значна сума. Я провів підрахунки і вийшло, що ті словники, які робилися за звичайною технологією вже в українське час за допомогою отримання грантів і т.д. приблизно коштували 750 доларів за 20 сторінок машинописного тексту. У нас стелю бюджету приблизно 100-120 доларів за 20 сторінок. Фактично виходить в сім разів дешевше ця технологія.
Олександр Костинский. А скільки словників вам вдалося видати у вашій серії?
Дмитро Дмитрієв. Всього заплановано 25 найменувань, але в даний момент вийшло друком п'ять. Решта теж незабаром вийдуть. З точки зору електронної версії вони вже готові. Проблеми бувають на друкарською стадії. Олег Садів Знову ж, використання цих сучасних технологій, взагалі кажучи, дає певний заділ і на майбутнє, тому що в майбутньому, використовуючи такі бази даних, можна буде робити і тимчасові лексичні зрізи.
Олександр Костинский. Ще комп'ютерні технології дають величезний охоплення. Принципово ці п'ять мільйонів карток можна перевести в електронний вигляд. Можливий словник української мови, який буде включати п'ять мільйонів значень слів.
Дмитро Дмитрієв. Звичайно, ми переступили через ці обмеження за обсягом. Зараз не обов'язково вдома ставити двадцять томів словника, можна поставити один компакт диск і це все буде оглядатися, в єдиному пошуковому полі. Це, між іншим, набагато цікавіше - працювати з живим матеріалом. Це найцікавіше в справі написання словника - дивитися за реальним життям слова.
Олександр Костинский. А використовуєте ви Інтернет?
Дмитро Дмитрієв. Звичайно. Інтернет - це жива стихія, яка компенсує брак свіжого матеріалу, який часто спостерігається в корпусах. Під корпусом мається на увазі звід електронних текстів, з яким працює лексикограф. Адже ви розумієте, що 95% всієї текстової маси зазвичай заповнюється за допомогою трьох-чотирьох тисяч слів - лексем, а на решту 5% текстової маси припадають сотні тисяч всього іншого лексичного фонду. Інтернет використовують як величезний ресурс текстів найрізноманітніших жанрів: люди пишуть починаючи з розмовних, жаргонних текстів до високоінтелектуальних літературних. В Інтернеті можна знайти все. Дуже цікаво робити активні пошуки в Мережі тих слів і виразів, щодо яких ми хочемо провести якісь дослідження.