Наповнення ЕА і ретроконверсія @ (версія для друку)
Наповнення ЕА і ретроконверсія
наповнення ЕА
Основна функція ЕА - зберігання архівних документів в електронному вигляді. Новостворена система ЕА повинна бути наповнена такими документами. Існують два розрізняються за технологією способу подібного наповнення (див. Рис. 1):
- Введення поточних документів
- Залповий введення документів
Введення поточних документів в ЕА зазвичай здійснюється протягом усього терміну функціонування ЕА в рамках організаційно-технологічного модуля обробки поточних надходжень. У цьому модулі входять документи скануються і піддаються іншої необхідної обробці (індексація, якої буде присвячена лекція "Індексація і іміджінг") у міру їх надходження в ЕА.
На початковому етапі функціонування ЕА часто виникає завдання разового (залпового) перекладу накопиченого до моменту створення ЕА архівного фонду в електронний вигляд. Це завдання вирішується за допомогою застосування технології ретроконверсії, що є предметом цієї лекції.
В ході лекції будуть розглянуті наступні питання:
- Суть технологічного процесу ретроконверсії
- види ретроконверсії
- Етапи процесу ретроконверсії
Що таке ретроконверсія?
Ретроконверсія - це масове перетворення інформації, що міститься в документах на традиційних носіях, в електронний вигляд. Подібне перетворення, як правило, носить одноразовий, залповий характер.
Ретроконверсія слід відрізняти від рекаталогізаціі. При ретроконверсії здійснюється перенесення інформації з паперових документів в електронний вигляд, однак (за винятком, і то не у всіх випадках, явних помилок) інформацію не модифікується. При рекаталогізаціі одночасно проводиться зміна яку переносять інформації. Далі буде розглядатися саме ретроконверсія.
види ретроконверсії
Розглянемо основні варіанти можливої обробки інформації при перекладі її в електронний вигляд:
1. іміджінг. Документи зберігається у вигляді набору графічних образів відсканованих сторінок. Для організації доступу до них проводиться індексація документів щодо мінімального набору полів, що ідентифікують документ або навіть групу документів. Це найдешевший спосіб обробки, проте, і самий невибагливий з точки зору можливості пошуку.
2. Повна ретроконверсія. Формування записів бази даних на основі вхідних документів, після чого образи вже не потрібні, а можливості пошуку визначаються програмним забезпеченням, що працює з базою даних.
Вибір виду ретроконверсії
Як саме обробляти той чи інший вид документів, вирішується на стадії постановки завдання. Це залежить і від виду документів, і від типів поширених запитів до архіву. Зрозуміло, що чим більше трудовитрати на обробку документа, тим дорожче вона обходиться. Будь-яка помилка при прийнятті рішення може позначитися як на вартості проекту створення ЕА, так і на його ефективності. Повний розпізнавання (тобто переклад з графічного образу в текстовий) автоматичним шляхом вимагає високої якості вихідного документа, і, крім того, вагомих аргументів для перекладу документа в текстовий режим. Основні з них - необхідність контекстного пошуку і обсяг електронного документа.
Якщо ці аргументи не актуальні, розпізнавання текстів може бути недоцільним.
об'єкти ретроконверсії
Об'єктом ретроконверсії в загальному випадку є масив документів. Результатом ретроконверсії є масив електронних документів. Технологічний процес ретроконверсії описується в термінах одиничного документа (процедури його сканування, виділення частин і т.п.), тому до початку обробки документів має бути визначено, що власне є документом в конкретному випадку.
При наявності в архівній справі опису найбільш поширений варіант рішення - один документ - один пункт опису. При обробці виділяються листи документа, а в якості пошукових індексів береться інформація з колонок опису.
Якщо ж опис відсутній або, що нерідко буває, не відповідає вмісту справи, завдання сильно ускладнюється. Поточний метод обробки вимагає прийняття стандартних рішень відповідно до чітко виробленими правилами. Тому для кожного типу інформації повинні бути сформульовані правила виокремлення та індексації документа без застосування спеціальних знань. Питання індексації документа будуть детально розглянуті в лекції "Індексація і іміджінг".
З хаотично лежить купи паперів автоматично не вийде стрункого електронного архіву. У той же час при наявності структурованого паперового архіву можна швидко отримати електронні документи з ефективним доступом до них.
етапи ретроконверсії
В процесі ретроконверсії зазвичай виділяють наступні етапи:
- Постановка задачі. Формулюється завдання ретроконверсії: перевести заданий архівний фонд в електронний вигляд для використання в якості наповнення цільового ЕА
- Експертиза і уточнення завдання. Етап, що випереджає основні роботи по ретроконверсії
- Експертиза масивів паперових документів. Проводиться дослідження перекладного в електронний вигляд архівного фонду на предмет визначення технологічних параметрів процесу ретроконверсії (кількість і номенклатура документів, якість паперу, складність структури документів, їх Новомосковскемость і т.п.)
- Уточнення завдання і етапність робіт. На основі результатів експертизи уточнюється постановка завдання ретроконверсії, визначаються склад і характеристики етапів робіт по ретроконверсії (тривалість, трудовитрати, вартість і т.п.)
- Вибір техніки. На основі результатів експертизи паперових документів визначається найбільш підходяще з технічних і вартісних параметрів апаратне забезпечення для перекладу документів в електронний вигляд (сканери, станції сканування та ін.)
- Розробка технологічного маршруту обробки документів. Визначається послідовність обробки документів в ході ретроконверсії і технологічні параметри етапів цієї обробки. Виділяються наступні етапи:
- Сканування, тобто отримання електронних графічних образів документів (буде детально розглянуто далі в цій лекції)
- Індексація, тобто витяг значимої інформації з електронних образів документів і занесення цієї інформації в структуру зберігання даних (цей і наступні етапи, в силу їх складності і значущості в процесі ретроконверсії, будуть розглянуті пізніше в окремій лекції "Індексація і іміджінг")
- Верифікація, тобто перевірка якості індексації
- Формування вихідних масивів, тобто приведення формату отриманих в ході індексації даних до вимог наповнюється ЕА
- Пілотний проект. На цьому необов'язковий етапі виділяється деяка частина архівного фонду з метою відпрацювання технологічного процесу ретроконверсії, і проводиться повна обробка цієї частини
- Коригування технологічного маршруту. При наявності етапу пілотного проекту після його завершення за результатами обробки частини архівного фонду може бути проведено коригування технологічних параметрів процесу ретроконверсії з метою оптимізації обробки масиву документів в цілому
- Запуск і виконання робіт. Власне виконання обробки архівного фонду
- Генерація та експорт кінцевого продукту. Отримання цільного готового масиву даних в електронному вигляді та завантаження цих даних безпосередньо в цільовий ЕА, після чого вони стають повністю доступними для використання в складі ЕА
організація сканування
Сканування документів в процесі ретроконверсії, тобто створення їх електронних графічних образів, передує іншим етапам обробки документів в електронному вигляді, які будуть розглянуті в лекції "Індексація і іміджінг". Сканування документів здійснюється в наступному порядку:
1. Отримання документів з місця їх постійного зберігання (якщо сканування проводиться не за місцем зберігання), підготовка до сканування:
- розшивання документів, вилучення металевих скріпок
- вставка технологічних роздільників (спеціальних листів, призначених для розмежування груп документів), формування пачок (тобто окремих груп документів) для сканування
- розподіл документів по сканерів відповідно до властивостей документів: розшиті, зшиті, кольорові, старі і ін.
2. Сканування документів і перевірка якості:
- власне сканування документів
- відбраковування неякісних образів, повторне сканування погано відсканованих документів з іншими настройками сканера або на інших сканерах
- запис отриманих образів документів на носій оперативного зберігання (жорсткий диск) відповідно до правил рубрикаторів або СУБД ЕА
3. Повернення документів:
- відновлення первісного вигляду документів (наприклад, якщо складений документ був розкритий, його зворотне складання)
- зшивання початково зшитих документів і вилучення технологічних роздільників
- повернення документів на місце їх постійного зберігання
4. Запис інформації на DVD диски:
- перевірка файлової структури, вибіркова перевірка якості сканування (графічно файлів).
- Новостворена система ЕА повинна бути наповнена документами, існують два розрізняються за технологією способу подібного наповнення (введення поточних документів і залповий введення документів, тобто ретроконверсія)
- Ретроконверсія - масове перетворення інформації, що міститься в документах на традиційних носіях, в електронний вигляд.
- Існують три види ретроконверсії, що розрізняються по повноті обробки міститься в документах інформації - іміджінг, повна ретроконверсія і проміжний варіант.
- Процес ретроконверсії розбитий на окремі етапи з організаційно-технологічним ознаками, власне технологічна частина обробки документів в процесі ретроконверсії включає в себе сканування, індексацію, верифікацію і формування вихідних масивів.