Документальні бази даних - online presentation
Дисципліна: «Бази даних»
Спеціальність: №08080165
«Прикладна інформатика (в економіці)»
Документальні
бази даних
Інститут інформатики, інновацій та бізнес систем
Кафедра Інформаційних систем і прикладної
інформатики
Старший викладач Богданова О.Б.
Основні поняття
Оскільки інформація не завжди представлена у вигляді
структурованих даних, існує необхідність
організації даних, відмінних від фактографічних.
Інформаційні системи, які зберігають документи
різних форматів звуться документальних
інформаційних пошукових систем (Діпсі).
Основні поняття
Бази даних документального типу можуть бути
організовані:
• зі зберіганням вихідного документа (повнотекстові);
(Бібліографічні, реферативні)
• без зберігання документів (БД-покажчики).
Основні поняття
Інформаційний пошук в таких системах являє
собою пошук документів, що містять відповідь на поставлене
користувачем запит. або інформації з документів
Інформаційний запит користувача являє
собою приватне значення інформації, зажадав у
певний момент часу і виражений на
природною мовою.
Основні поняття
Пертінентность - відповідність смислового змісту
документа інформаційної потреби користувача.
Релевантність - відповідність змісту документа
інформаційним запитом.
Основні поняття
Формальне представлення інформаційного
змісту запиту - пошукове припис (ПП)
Формальне представлення основного інформаційного
змісту документа - пошуковий образ
документа (ПОД)
Набір правил, що визначає ступінь смислової
близькості ПІД і ПП - критерій смислового
відповідності
Автоматизація процесу
запит
Пошуковий
образ
=
немає
Повідомлення
пошукове
припис
критерій
смислового
відповідності
Так
функціональна структура
запит
підсистема
обробки
підсистема
введення і
реєстрації
Пошуковий
образ
пошукове
припис
підсистема
пошуку
Пошуковий
образ
КСС
словник
індекс
підсистема
зберігання
база
даних
функціональна структура
Підсистема зберігання ніколи не зберігає просту
сукупність фактів, розподілену по каталогам, так як
це може викликати проблеми пошуку інформації та
неефективне використання дискового простору.
Ця підсистема завжди застосовує засоби стиснення і
являє собою сукупність СУБД,
засобів архівації і т.д.
функціональна структура
Підсистема обробки створює для кожного документа його
пошуковий образ, який зберігається з індексі.
Логічно індекс являє собою таблицю, де рядки
відповідають документам, а стовпці інформаційним
ознаками.
функціональна структура
Механізм пошуку призначена для відшукання в індексі
пошукового образу документа, що задовольняє пошуковому
приписом з точки зору критерію смислового
відповідності.
Ідентифікатори знайдених релевантних документів з
виходу підсистеми пошуку передаються на вхід
підсистеми зберігання, яка забезпечує видачу самих
документів користувачеві.
Інформаційно-пошукові мови
Інформаційно-пошуковим мовою називається
спеціалізований мова, призначена для опису
смислового змісту надійшли в систему повідомлень з
метою забезпечення можливості їх послідовного пошуку.
Два основних типи:
Класифікаційні мови;
дескрипторного мови
• з граматики і без граматики
• з контрольованою і вільної лексикою
Обробка вхідної текстової
інформації
Процес перекладу документа з природної мови на
інформаційно-пошукова мова носить назву
рубріцірованія або індексування.
автоматичне індексування
автоматичне
індексування
документів
може
ґрунтуватися на простих, однослівних або багатослівних
складових
термінах
(Фразах).
Терміни-фрази
більше
осмислені, мають більшу дискримінує міццю.
Обробка вхідної текстової
інформації
Процес перекладу документа з природної мови на
інформаційно-пошукова мова носить назву
рубріцірованія або індексування.
У рубріцірованіі документа виділяють 2 основних
підходу:
1. Рубріцірованіе, засноване на знаннях;
2. Рубріцірованіе, засноване на навчанні на
прикладах.
Обробка вхідної текстової
інформації
Дві основні моделі представлення знань:
1. Семантична мережа (СС)
Тезаурус - ієрархічна мережа понять і відносин між
ними.
2. Продукционная модель (ПМ)
Виділяють 2 групи:
статична рубріцірованіе
нейромережеві методи
Обробка вхідної текстової
інформації
Статистичне рубріцірованіе - визначення ступеня
відповідності термінологічного портрета документа і
термінологічного портрета рубрики на основі
статистичних характеристик суб'єктів порівняння
Нейромережеві методи рубріцірованія використовують
нейронну мережу в якості навчального класифікатора.
Існує добірка текстів, кожен з яких позначений як
релевантний або нерелевантні для рубрики.
Основні моделі пошуку
• Булева модель являє документи за допомогою набору
термінів, присутніх в індексі, кожен з яких
розглядається як булева змінна
• Модель непарних множин допускає часткову
приналежність елемента безлічі
• Просторово-векторна розглядає сукупність
документів як набір векторів в просторі, який визначається з
n нормалізованих векторів термінів
• Вероятностная модель визначає ймовірність вхоженія
терміна в документ

