Як швидко розпізнати сканований текст
В роботі досить часто стикаюся з необхідністю розпізнати текст. Будь то відсканована книга, PDF-документ або ж потрібно просто витягнути текст з картинки. У статті хочу розповісти, як я це роблю, і поділитися деяким досвідом. Сподіваюся, поради в статті зможуть допомогти початківцям користувачам навчитися якісно розпізнавати текст з відсканованих картинок або інших графічних файлів. Я розповім про недоліки і переваги онлайн розпізнання. А також подивимося, яку програму потрібно встановити і як її використовувати для якісного розпізнавання тексту на зображеннях.


Що ми маємо на увазі під словами «розпізнати текст»?
Розпізнати текст - це перевести текст з картинки в текст або символи уявлення в комп'ютері. Якщо на відсканованому зображенні є текст, тоді після розпізнання ви отримаєте його у вигляді документа (PDF, MS Word, Excel, Html, Rtf, txt), який можна редагувати. Розпізнавання, наприклад, використовується для конвертації відсканованих книг або документів в електронний вигляд. Створений файл буде в точності повторювати структуру вихідного документа, буде збережено розташування таблиць, колонок і назви шрифтів. В такому розпізнаний вигляді набагато легше працювати з текстом, а також передавати по мережі.
Потрібно швидко розпізнати відсканований текст?
Онлайн сервіси вам на допомогу. Досить часто в своїй практиці я користувався можливістю розпізнати текст онлайн. Дуже зручно користуватися послугами онлайн розпізнавання, якщо ви наприклад не на роботі. Даю деякі посилання:
OCRconvert.com - це безкоштовний онлайн сервіс, який дозволяє розпізнати текст з PDF-файлів JPEG файлів і т.д. в загальному, будь-які відскановані зображення можете конвертувати в текст.
- Розпізнаний текст потрібно самому копіювати з веб-сторінки. Немає функції експорту в * .doc або * .docx. Як ви розумієте, не про яке збереження форматування мови бити не може - тільки текст. Якщо вам це не суть важливо - тоді немає проблем.
OnlineOCR.ru - дозволяє розпізнати текст з простої картинки, що сканує документа або фотографії. Результат можна отримати в будь-якому з 6 підтримуваних форматів.
FineReader Online - за допомогою цього сервісу ви можете перевести отримані зображення в електронний формат, зручний для редагування і зберігання.
Можете скористатися їх послугами в тому випадку, якщо потрібно розпізнати текст з усього однієї або декількох картинок - не більше. У такому випадку, можливо і немає сенсу встановлювати програми для розпізнання тексту.
Недоліки всіх онлайн сервісів:
- Потрібно реєструватися в системі
- Ліміт на кількість документів для розпізнання
- Немає можливості налаштувати процес розпізнання. Якщо складні сторінки, де переплетені картинки формули і текст на різних мовах - дуже складно отримати гідний результат розпізнання.
- Залежимо від інтернету.
Як розпізнати відсканований текст за допомогою програми.
Основні можливості ABBYY FineReader:
- Точність розпізнавання і збереження форматування документа.
- Зрозумілий інтерфейс - програма дуже проста у використанні.
- Розпізнавання цифрових зображень з будь-яких джерел.
- Переклад в популярні електронні формати - DOCX, XLSX, PDF і інші.
- Є інструменти для поліпшення якості фотографій документів.
- Типові сценарії для перекладу в найпопулярніші формати.
- Запуск безпосередньо з офісних додатків Microsoft Word, Excel, Outlook.
- Підтримка 179 мов розпізнавання.
Приклад: як розпізнати текст з картинки
Встановлюємо і запускаємо програму. Далі нам потрібно відкрити в програмі ті зображення, текст з яких потрібно розпізнати і зберегти як документ Microsoft Word.


FineReader відразу ж пропонує вибрати сценарій, за яким ми будемо працювати. У нашому випадку вже є зображення (скрін офф-сайту ABBYY FineReader), тому я виберу «зображення в Microsoft Word». У вашому випадку може бути інший сценарій.


Як тільки я вказав зображення, яке потрібно розпізнати програма в автоматичному режимі визначила розташування елементів і спробувала розпізнати текст на сторінці. Якщо вас не влаштовує те, як програма визначила блоки з текстом і картинками - можете видалити те, що виділила програма і, скориставшись панеллю інструментів самостійно вказати, що потрібно розпізнати як текст або таблицю, а що залишити як картинку.


Для прикладу хедер сайту (на зображенні) має і малюнок, і текст, але його не потрібно розпізнавати, тому я його всього виділю як картинку. Так зробіть з усіма блоками зображення. Виділіть, що є картинка, а що потрібно розпізнати як текст.


Як тільки ви вкажете налаштування області розпізнання, мова тексту (або залиште за умовчанням «Автоматичний вибір» мови) - потрібно заново розпізнати малюнок.


Після повторного розпізнання всіх сторінок програма виведе результат в відедокумента Microsoft Word. Якщо потрібно зберегти в іншому форматі - у вкладці «Зберегти» просто вибираєте потрібний формат. Таким чином, можна створювати pdf файли з відсканованих картинок і т.д.


Як бачимо, після правильного налаштування області розпізнавання (то, чого немає в онлайн сервісах) результат просто приголомшливий! Програма впоралася з таким складним завданням на 5 +. Як завжди - FineReader радує надійністю і якістю роботи!
От і все! Ми на прикладі побачили, як можна якісно розпізнати текст, практично з будь-яких зображень. Сподіваємося, Вам будуть корисними і інші статті на нашому сайті. Успіхів!
Микола Серебряков майстер- Активність: 11k
- Репутація: 187
Микола Серебряков майстер 2 роки тому
+3 Відповісти Закрити
Alexander. троль- Активність: 1414
- Репутація: -29
- Пол: Чоловік
Alexander. троль 2 роки тому