Повнотекстові бази даних ирбис

Основні можливості ІРБІС 64 по роботі з повнотекстовими базами даних

Можливості для творців електронних колекцій текстових документів.

  • Сформувати повнотекстову базу даних ІРБІС - вказати текстові документи, за якими система забезпечить можливість повнотекстового пошуку.
  • За допомогою програмного забезпечення ІРБІС надати користувачам доступ до колекції в локальній мережі, Інтернет або на CD / DVD.

Повнотекстові бази даних ІРБІС забезпечують можливість роботи з текстовими документами в форматах: HTML, TXT, RTF, PDF, DJVU, DOC, XLS, PPT.

Відмінність можливості включення повнотекстових документів в базу даних від можливості зв'язування документів бази даних із зовнішніми об'єктами

Не слід плутати можливість включення повнотекстових документів з можливістю зв'язування документів бази даних із зовнішніми об'єктами.

  • Обидві ці можливості дозволяють встановити зв'язок документів бази даних із зовнішніми об'єктами.
  • Можливість зв'язування документів бази даних із зовнішніми об'єктами обмежується забезпеченням простоти переходу користувача від документа бази даних до зовнішнього об'єкта.
  • Можливість включення повнотекстових документів в базу даних забезпечує повнотекстовий пошук, а також перехід користувача до знайденим зовнішніх об'єктів.

Програмні продукти для роботи з повнотекстовими базами даних ІРБІС 64

Функціональність по роботі з повнотекстовими базами даних ІРБІС 64 забезпечують наступні програмні продукти:

  • АРМ Адміністратор повнотекстових БД - робоче місце фахівця, яке дозволяє формувати повнотекстові бази даних і обслуговувати їх.
  • АРМ Новомосковсктель для повнотекстових БД - робоче місце користувача електронних колекцій.
  • Веб-шлюз ІРБІС для повнотекстових БД - забезпечує доступ до колекцій повнотекстових документів користувачів Інтернету (і / або локальної мережі) за допомогою веб-браузера.

Концепція повнотекстових баз даних ІРБІС

Повнотекстові бази даних ІРБІС відрізняються можливістю індексування текстів із зовнішніх файлів. Що забезпечує можливість організувати пошук цих текстів.

Індексування текстів з зовнішніх файлів грунтується на наступних ідеях:

  • Пов'язувати записи повнотекстової бази даних з текстами з зовнішніх файлів, щоб скористатися механізмом індексування в ІРБІС.
  • Реалізувати спеціальний метод індексування 9. дозволяє індексувати тексти з зовнішніх файлів, пов'язані з записами повнотекстової бази даних.

Для опису механізму зв'язування записи повнотекстової бази даних з текстами з зовнішніх файлів вводяться такі поняття:

  • Поняття об'єкта повнотекстового пошуку - що може бути пов'язано із записом повнотекстової бази даних (і згодом проіндексовано).
  • Поняття посилання на об'єкта повнотекстового пошуку. за допомогою якої запис повнотекстової бази даних зв'язується з об'єктом повнотекстового пошуку.

Формування повнотекстової бази даних

Формування повнотекстової бази даних передбачає додавання в повнотекстову базу даних текстів (також прийнято називати включення текстів в базу даних) і їх подальше індексування.

Фактично, при додаванні текстів. вони розглядаються як об'єкти повнотекстового пошуку. у відповідність кожному з яких в базі створюється запис. що містить посилання на даний об'єкт. Детальніше див. У статті Схема повнотекстової бази даних.

Включення текстів в базу здійснюється за допомогою АРМ Адміністратор, докладніше див. В підрозділі включення текстів в повнотекстову базу даних статті АРМ Адміністратор повнотекстових БД.

Об'єкти повнотекстового пошуку в ІРБІС

Концепція повнотекстових баз даних ІРБІС передбачає наступні види об'єктів повнотекстового пошуку.

Зовнішній текстовий файл

Файл допустимого типу. Список допустимих форматів наведено в підрозділі Основні можливості ІРБІС 64 по роботі з повнотекстовими базами даних.

Окрема сторінка багатосторінкового документа

Окрема сторінка багатосторінкового документа (формату PDF або DJVU).

Файл, асоційований з текстом- "підкладкою"

Файл допустимого типу, що супроводжується текстовим файлом, що містить текстовий шар. Список допустимих форматів наведено в підрозділі Основні можливості ІРБІС 64 по роботі з повнотекстовими базами даних.

Поняття об'єкта повнотекстового пошуку є одним з ключових в концепції повнотекстових баз даних:

Функціональні можливості ІРБІС 64 для повнотекстових баз даних

Додавання файлів в повнотекстову базу даних

Файли для додавання можуть бути вказані вибірково або може бути вказана папка, з якої будуть додані файли.

Можна встановити список розширень, щоб були додані тільки файли відповідних типів.

Додавання багатосторінкових документів з розбивкою на сторінки

Файл PDF або DJVU може бути доданий в повнотекстову базу з розбивкою на сторінки (якщо обрана відповідна опція).

У цьому випадку об'єктом повнотекстового пошуку є окрема сторінка PDF або DJVU документа.

Якщо користувач в результаті пошуку отримав окрему сторінку тексту, він має можливість перейти до інших сторінок.

Примітка: з розбиттям на сторінки НЕ можуть бути додані файли PDF або DJVU, що знаходяться в архіві.

Індексування повнотекстової бази даних

Індексування повнотекстової бази даних - процес наповнення словника бази даних словами з текстів із зовнішніх файлів, доданих до бази даних.

Індексування документів, з яких неможливо витяг тексту

Якщо з повнотекстових документом асоційована підкладка, то при побудові словника буде використаний міститься в підкладці текст. Для показу користувачеві буде використаний сам включений в базу документ.

Детальніше див. У підрозділі Асоціація тексту-підкладки з включених в повнотекстову базу документом статті АРМ Адміністратор повнотекстових БД.

Індексування файлів PDF, захищених паролем

У ІРБІС можливо індексування файлів PDF, захищених паролем. Передбачена можливість використання тільки одного пароля. Детальніше див. У підрозділі Витяг текстових даних з PDF-файлів, захищених паролем статті АРМ Адміністратор повнотекстових БД.

пошукові можливості

У ІРБІС для повнотекстових БД передбачені наступні пошукові можливості:

  • повнотекстовий пошук;
  • пошук по елементам опису повних текстів (за замовчуванням передбачений пошук за елементами Dublin Core);
  • повнотекстовий пошук, доповнений обмеженням за елементами опису;
  • можливість уточнювати повнотекстовий пошук за допомогою пошуку в знайденому за елементами опису.

Застарілі можливості ІРБІС 64 по роботі з повнотекстовими базами даних

Опції включення повнотекстових документів, сумісні з даною:

  • Можливо включення як зазначених користувачем документів, так і всіх документів із зазначеної папки.
  • Додаткові витрати часу на розархівування при забезпеченні доступу до повнотекстовому документу.
  • Тексти не доступні через Веб-ІРБІС.