Оцифровка друкованих текстів
Оцифровка друкованих документів - це переклад їх зображення, отриманого зазвичай через сканер або фотоапарат, в будь-якої електронний формат.
Це керівництво освітить все практичні способи оцифровки, доступні широкому колу користувачів персональних комп'ютерів.
«Електронні книги» - це зберігається в комп'ютері текст, оформлений у вигляді, властивому друкованим книгам. Так, електронні книги зазвичай дроблять вміст текст на равноразмерние нумеровані сторінки; їх типографіка відповідає рівню друкованих видань. Важливо відразу ж розрізняти скановані і вёрстанние електронні книги.
Виробництво векторної електронної книги з паперової книги шляхом комп'ютерного розпізнавання (OCR) пов'язане з колосальними витратами праці, особливо якщо книга містить багато ілюстрацій, графіків, діаграм, таблиць, або формул, бо нинішній стан розпізнавальних програм змушує форматувати все це вручну, і нерідко - виправляти помилки розпізнавання тексту. Тому для таких книг набагато легше робити саме растрові, а не векторні електронні версії. Навіть в чисто текстових книгах - без ілюстрацій, таблиць або формул - автоматичне розпізнавання часом дає трудновиявімие помилки. Набагато швидше приготувати растрову електронну книгу, тим більше що сучасна технологія стиснення зображень дозволяє робити файли цілком прийнятного розміру. Наприклад, середній розмір растрових книг, включаючи розпізнаний текст - 13 КБ на сторінку. Це означає, що растрова книга, що має 400 сторінок, в середньому займає близько 5 МБ (цифри наводяться для формату DJVU). На стандартному ДВД-носії (4,3 ГБ) може поміститися близько 900 таких книг.
Деякі програми дозволяють робити файли формату PDF, в яких весь погано розпізнаний матеріал міститься у вигляді відсканованих картинок, а текст є векторним. Такі PDF файли проте сильно програють чисто растровим книгам і за зовнішнім виглядом (нестиковка векторних шрифтів і фрагментів зображення сторінки), і за розміром файлів.
Правові аспекти Правити
Ми закликаємо вас знати і дотримуватися законів тієї країни, де ви живете, і оцифровувати тільки матеріали, які не є об'єктами майнових прав. Даний посібник з оцифрування книг має чисто технічний характер і не може розглядатися як інструкція по порушенню закону. Посилання на інтернет-джерела надаються тільки з метою ознайомлення з технікою оцифровки.
Формати DJVU і PDF Правити
1. Щоб визначити дозвіл растра, що знаходиться всередині готового PDF, можна скористатися функціоналом Adobe Acrobat (описую за версією 5.0). Витягуємо зображення з pdf-файлу: File -> Export -> Extract Images As -> TIFF Files. У розділі Settings вибрати Colorspace: Determine Automatically і Resolution: Determine Automatically.
Збережені зображення відкрити в Irfan View і натиснути кнопку «Image Information». Працює для більшості pdf-файлів. За рідкісним виключенням. Іноді, дійсно, трапляються файли, які не піддаються такій обробці (Acrobat видає помилку типу: XObject can not be extracted).
2. Щоб встановити дозвіл растра, який буде отриманий в pdf при друку зображення на віртуальний принтер Distiller (описую за версією 5.0), потрібно вибрати у властивостях принтера пресет «Screen» (Принтер -> Властивості -> Загальні - Налаштування друку -> Adobe PDF Settings - Conversion Settings: Screen). Трохи нижче в цьому ж діалозі натиснути кнопку Edit Conversion Settings, на закладці Compression зняти галочки з усіх Average Downsampling. Тоді дозвіл зображень мінятися не буде. (Або виставити в 600 dpi. Тоді тільки зображення з великою роздільною здатністю будуть приводиться до 600 dpi.) Пресетів зберегти під новим ім'ям, скажімо, Screen-fullresolution.
Проілюструємо співвідношення розмірів PDF і DJVU файлів. Переклад в формат DJVU типовою відсканованої видавництвом статті з журналу Physical Review (у них високий дозвіл і гарна якість сканування) зменшує розмір видавничого PDF файлу в 10 разів. У багатьох випадках переклад з векторного PDF в DJVU, навіть з високою якістю зображення і збереженням тексту та навігації, все одно дає файл DJVU меншого розміру, ніж вихідний PDF. Це дуже часто відноситься до файлів, створеним такими програмами, як Quark Express, Acrobat Distiller (але не до файлів, створеним за допомогою Latex / Ghostscript). Іноді векторні PDF файли містять багато формул у вигляді вставних растрів; такі файли зменшуються в 3-4 рази при перекладі в DJVU.
Саме технічні переваги формату DJVU і можливість автоматизовано обробляти DJVU файли привели до широкого використання формату DJVU серед ентузіастів створення растрових електронних книг, в основному науково-технічного характеру.
Пристосування для сканування Правити
Отримувати зображення документа можна сканером або фотоапаратом. Якісних відмінностей між ними немає, але і у сканерів, і фотоапаратів є свої переваги і недоліки.