Базові принципи роботи з pdf-файлами - енциклопедія перекладача
Розглянемо кожен з цих факторів докладніше:
Захищений чи присланий PDF паролем
Більш правильний спосіб, але часто не настільки безпроблемний, та й віднімає дорогоцінний час - звернутися до замовника з проханням надіслати незапароленний файл (а краще взагалі исходник). Якщо таке прохання підкріплюється підвищенням розцінок на роботу з незручним файлом, і замовник хоче, щоб роботу зробили саме Ви, то чудеса іноді трапляються.

Запаролений PDF з забороною копіювання вмісту
Стандартна шрифтовая розкладка
Тепер перевіримо, чи використовується в файлі стандартна шрифтовая розкладка (Ця проблема більш актуальна для російськомовних документів, але, тим не менш, ми повинні її знати). Якщо виділений текст копіюється і вставляється в іншу програму правильно, в документі правильна розкладка шрифту. Якщо при вставці ми бачимо крякозябри або порожнечу - шрифтовая розкладка невірна. Пошук в таких документах працювати теж не буде.
PDF з невірною шрифтової розкладкою
Залежно від критичності документа і кількості в ньому шрифтів і знаків, які зажадають виправлення після розпізнавання для роботи з такими документами можна використовувати два способи: виправлення в розкладки Infix PDF Editor з подальшим витяганням і збереженням тексту або розпізнавання. Ми розглянемо другий, а бажаючі самі знайдуть інформацію за першим.
Чи багато в документі таблиць, ілюстрацій, нестандартних символів і т. П.
Оскільки в PDF немає поняття таблиць, то і витягти з нього таблиці стандартними способами, і навіть деякими PDF -конвертерамі, не можна. Такі документи краще розпізнавати. Те ж саме відноситься і достатку табульованих розділень, колонтитулів, ілюстрацій з підписами, обтічними текстом. Витягти все це адекватно в текст стандартні перетворювачі не можуть, а витрати на приведення результатів такого вилучення в нормальний вигляд часто перевищують витрати часу на ручне розпізнавання тексту в FineReader. Правда, розробники хмарної ТМ SmartCAT погрожують зробити диво, але здається мені, що це буде чергове народження миші горою.

Результат копіювання табличних даних з PDF

Результат ручного розпізнавання табличного PDF
колоночного документа
Тут теж треба дивитися. Часто і при прямому вилученні і при автоматичному розпізнаванні FineReader кілька колонок потрапляють в один блок і результат на виході виходить жахливий. Але, на відміну від стандартних засобів вилучення тексту з PDF. FineReader дозволяє нам налаштовувати блоки для розпізнавання. Акуратно поколоночно вибирати текст з документа в Acrobat Reader буде швидше на документах обсягом до 30 сторінок. Однак такий текст після доведеться обробляти (з'єднувати розбиті рядки і т.п.). Процес обробки можна, зрозуміло, автоматизувати, наприклад за допомогою регулярних виразів. Але це виходить за рамки даного документа.
Необхідний формат на виході
Отже, ми визначилися. У нас документ складний - будемо розпізнавати. Завдання - перевести його з англійської, український вставити замість французького, отримавши англо-російсько-німецький документ з посторінковим відповідністю оригіналу. Формат кінцевого документа - MS Word doc (x). Переклад написів на малюнку дати в табличці «оригінал - переклад» під малюнком.
Отже, якщо ми поглянемо на документ, ми побачимо, що він трёхколоночний і кожна колонка на окремому мовою. Простіше за все такий текст краще верстати таблицею, де кожна колонка окрема мова.
Якщо ми ще подивимося на схему обробки PDF -документів, то побачимо, що верстка там стрілочками спрямована на етапи до і після переведення. Що це означає?
Верстати кінцевий документ можна і до і після переведення. Кожне рішення має свої плюси і мінуси.
Переваги верстки після перекладу
Менші витрати часу на верстку, так як документ верстається відразу в чистовик. При попередній верстці після перекладу багато елементів через більшої довжини українського тексту в порівнянні з англійським і особливостей оригіналу (наприклад, малі поля) можуть спливти або зрушити на іншу сторінку. Це зажадає виправлення в процесі вичитки.
Можна працювати з чистим текстом без тгов.
Можна додатково поліпшити Новомосковскемость готового тексту в процесі верстки.
При внесенні суттєвих правок в переклад доводиться або залишати сиру ТМ, або все верстати, або паралельно виправляти і ТМ і текст, що аж ніяк не сприяє ні якістю, ні ефективності.
Всі абзаци перерахування (з Буллет і номерами) потрапляють в ТМ, створюючи небажаний шум для алгоритмів оцінки подібності сегментів.
За рахунок використання полів у зверстані документі в несвёрстанном документі тексту на переклад буде більше.
В переклад йде, як правило, більш помилковий текст (маються на увазі помилки розпізнавання) т. К. При верстці частина помилок усувається. Це знову-таки не кращим чином позначається на змісті баз пар перекладів (т. Н. Translation memories).
Неідеальна сегментація, непоправна в деяких ТМ-програмах.
Верстка до перекладу
Тут картина зворотна. Витрати часу по обох способів приблизно однакові, і вибір, скоріше, залежить від самого процесу - кому-то звичніше швидко робити в ТМ чернетку, а потім «вилизувати» його паралельно з версткою в MS Word або OO Writer. Кому чистовик потрібен в ТМ, альтернативи попередньої верстці немає. Підемо і ми цим шляхом.
Якщо ви правильно вловили думки, викладені вище, то в FineReader необхідно отримати щось схоже на наступну картинку:

Схема накладення блоків і результат розпізнавання в FineReader
Картинка в центрі отримана об'єднанням осередків таблиці і установкою прапорця «Вважати осередок картинкою».
Можете порівняти її з результатами автоматичної обробки файлу FineReader. Цей приклад, хоч він і є якоюсь крайньою ситуацією, добре ілюструє здатність автоматичних конвертерів вирішувати складні завдання на даний момент. А таких завдань в технічному перекладі більшість.
Експортуємо результати в Ворд в режимі «Таблиці, абзаци, шрифти» (В пізніших версіях він називається «Простий текст») зі збереженням зображень і займемося підготовкою до імпорту в ТМ.

Вікно налаштування параметрів збереження результатів розпізнавання у MS Word в FineReader 8
Перш за все, видаляємо дубльовані прогалини (остання версія FineReader робить це автоматично при експорті, зате не видаляє м'які переноси - їх теж потрібно буде видалити вручну), видаляємо текст з французького шпальти і виправляємо помилки в інших. Буллетірованние абзаци буллетіруем
, нумеровані списки нумеруем автоматом , номера глав і перерахування в кінці документа (після Where) за бажанням відокремлюємо табами.

Копіюємо англійська назва замість французького і знімаємо атрибут «прихований». Повторюємо операцію для всіх осередків нашої таблиці. Зберігаємо отриманий файл.
Для користувачів інших ТМ-програм параметри імпорту та відповідна адаптація формату вихідного документа нехай будуть домашнім завданням.

Імпортований в програму ТМ (тут DejaVuX3) документ
Чи не краса виглядає схоже на наступну картинку

Приклад документа, засміченого тегами (в DejaVuX)
Переводимо, експортуємо, і, якщо все ОК, отримуємо готовий переклад. Розміри полів достатні, щоб переказ не зрушив сторінки. Оскільки якість картинки погане, її потрібно переводити вручну.
Перевіряємо чи все ОК. Виявлені помилки виправляємо. Якщо текст не поміщається на сторінку, можна трохи розсунути стовпець таблиці (якщо поля дозволяють), злегка зменшити шрифт (на 0,5 пункту), вибрати ущільнений шрифт. Переважає варіант 2, але щоб документ виглядав, шрифт треба буде зменшити для всього російськомовного тексту.

На се урок завершений.
Я розумію, що питання роботи в FineReader і верстки в MS Word я висвітлив досить туманно, але кожен з них вимагає сторінок по 5-7 густого тексту. Може як-небудь іншим разом.