Як швидко розпізнати сканований текст

В роботі досить часто стикаюся з необхідністю розпізнати текст. Будь то відсканована книга, PDF-документ або ж потрібно просто витягнути текст з картинки. У статті хочу розповісти, як я це роблю, і поділитися деяким досвідом. Сподіваюся, поради в статті зможуть допомогти початківцям користувачам навчитися якісно розпізнавати текст з відсканованих картинок або інших графічних файлів. Я розповім про недоліки і переваги онлайн розпізнання. А також подивимося, яку програму потрібно встановити і як її використовувати для якісного розпізнавання тексту на зображеннях.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

Що ми маємо на увазі під словами «розпізнати текст»?

Розпізнати текст - це перевести текст з картинки в текст або символи уявлення в комп'ютері. Якщо на відсканованому зображенні є текст, тоді після розпізнання ви отримаєте його у вигляді документа (PDF, MS Word, Excel, Html, Rtf, txt), який можна редагувати. Розпізнавання, наприклад, використовується для конвертації відсканованих книг або документів в електронний вигляд. Створений файл буде в точності повторювати структуру вихідного документа, буде збережено розташування таблиць, колонок і назви шрифтів. В такому розпізнаний вигляді набагато легше працювати з текстом, а також передавати по мережі.

Потрібно швидко розпізнати відсканований текст?

Онлайн сервіси вам на допомогу. Досить часто в своїй практиці я користувався можливістю розпізнати текст онлайн. Дуже зручно користуватися послугами онлайн розпізнавання, якщо ви наприклад не на роботі. Даю деякі посилання:

OCRconvert.com - це безкоштовний онлайн сервіс, який дозволяє розпізнати текст з PDF-файлів JPEG файлів і т.д. в загальному, будь-які відскановані зображення можете конвертувати в текст.

  • Розпізнаний текст потрібно самому копіювати з веб-сторінки. Немає функції експорту в * .doc або * .docx. Як ви розумієте, не про яке збереження форматування мови бити не може - тільки текст. Якщо вам це не суть важливо - тоді немає проблем.

OnlineOCR.ru - дозволяє розпізнати текст з простої картинки, що сканує документа або фотографії. Результат можна отримати в будь-якому з 6 підтримуваних форматів.

FineReader Online - за допомогою цього сервісу ви можете перевести отримані зображення в електронний формат, зручний для редагування і зберігання.

Можете скористатися їх послугами в тому випадку, якщо потрібно розпізнати текст з усього однієї або декількох картинок - не більше. У такому випадку, можливо і немає сенсу встановлювати програми для розпізнання тексту.

Недоліки всіх онлайн сервісів:

  • Потрібно реєструватися в системі
  • Ліміт на кількість документів для розпізнання
  • Немає можливості налаштувати процес розпізнання. Якщо складні сторінки, де переплетені картинки формули і текст на різних мовах - дуже складно отримати гідний результат розпізнання.
  • Залежимо від інтернету.

Як розпізнати відсканований текст за допомогою програми.

Основні можливості ABBYY FineReader:

  • Точність розпізнавання і збереження форматування документа.
  • Зрозумілий інтерфейс - програма дуже проста у використанні.
  • Розпізнавання цифрових зображень з будь-яких джерел.
  • Переклад в популярні електронні формати - DOCX, XLSX, PDF і інші.
  • Є інструменти для поліпшення якості фотографій документів.
  • Типові сценарії для перекладу в найпопулярніші формати.
  • Запуск безпосередньо з офісних додатків Microsoft Word, Excel, Outlook.
  • Підтримка 179 мов розпізнавання.

Приклад: як розпізнати текст з картинки

Встановлюємо і запускаємо програму. Далі нам потрібно відкрити в програмі ті зображення, текст з яких потрібно розпізнати і зберегти як документ Microsoft Word.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

FineReader відразу ж пропонує вибрати сценарій, за яким ми будемо працювати. У нашому випадку вже є зображення (скрін офф-сайту ABBYY FineReader), тому я виберу «зображення в Microsoft Word». У вашому випадку може бути інший сценарій.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

Як тільки я вказав зображення, яке потрібно розпізнати програма в автоматичному режимі визначила розташування елементів і спробувала розпізнати текст на сторінці. Якщо вас не влаштовує те, як програма визначила блоки з текстом і картинками - можете видалити те, що виділила програма і, скориставшись панеллю інструментів самостійно вказати, що потрібно розпізнати як текст або таблицю, а що залишити як картинку.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

Для прикладу хедер сайту (на зображенні) має і малюнок, і текст, але його не потрібно розпізнавати, тому я його всього виділю як картинку. Так зробіть з усіма блоками зображення. Виділіть, що є картинка, а що потрібно розпізнати як текст.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

Як тільки ви вкажете налаштування області розпізнання, мова тексту (або залиште за умовчанням «Автоматичний вибір» мови) - потрібно заново розпізнати малюнок.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

Після повторного розпізнання всіх сторінок програма виведе результат в відедокумента Microsoft Word. Якщо потрібно зберегти в іншому форматі - у вкладці «Зберегти» просто вибираєте потрібний формат. Таким чином, можна створювати pdf файли з відсканованих картинок і т.д.

Як швидко розпізнати сканований текст
Як швидко розпізнати сканований текст

Як бачимо, після правильного налаштування області розпізнавання (то, чого немає в онлайн сервісах) результат просто приголомшливий! Програма впоралася з таким складним завданням на 5 +. Як завжди - FineReader радує надійністю і якістю роботи!

От і все! Ми на прикладі побачили, як можна якісно розпізнати текст, практично з будь-яких зображень. Сподіваємося, Вам будуть корисними і інші статті на нашому сайті. Успіхів!

Микола Серебряков майстер
  • Активність: 11k
  • Репутація: 187

Микола Серебряков майстер 2 роки тому

+3 Відповісти Закрити

Alexander. троль
  • Активність: 1414
  • Репутація: -29
  • Пол: Чоловік

Alexander. троль 2 роки тому