Як виявити модифікацію текстового файлу з цілю штучного підвищення унікальності

Перш ніж переходити до суті справи, пропоную ознайомитися з ситуацією за цей час номенклатурою. Слова антиплагіат і перевірка на анти плагіат. як і обхід антиплагіату все-таки не зовсім вірні. «Антиплагіат» - лише загальне ім'я однієї з систем. Так, вона найбільше на слуху, завдяки тому, що «благословенна» офіційно. Однак, по суті, вона не єдина, а тексти ми в ній перевіряємо на наявність запозичень. або, що краще відображає суть - проводимо перевірку (текстів) на унікальність. У свою чергу, всякі хитрі прийоми, які дозволяють обдурити різні системи перевірки - це прийоми, штучно завищують унікальність тексту.

Отже, будемо вести розмову про те, як виявити в тексті ось ці самі прийоми. Відразу повинен обмовитися - хоч прийоми і однотипні, і в цілому так чи інакше схожі на ті, що були описані мною раніше. вони постійно видозмінюються, адаптуються зацікавленими товаришами і т. п. Тобто, рецепта в стилі «тисніть на пімпу, тягніть закарлюку, і ви все побачите» - немає.

До того ж, я хочу утриматися від екзотики в стилі «потрошимо вордовскій файл і дивимося, що там в XML», хоча сам, часто, дію саме так.

Загалом, почнемо ми з одного досить надійного методу, що дозволяє виявити модифікацію текстового файлу, за допомогою прийому, який зараз отримав досить широке поширення. Це варіант, схожий на найперший описаний мною. (Саме тому, спочатку, я і не став описувати його окремо). Суть його, коротко, полягає в тому, що в файл впроваджується фрагмент унікального тексту, досить великий для того, щоб процентне співвідношення унікального тексту в файлі стало прийнятним. А якщо трохи докладніше - у нас є текст, допустимо, 10 000 символів, що має унікальність 50%. Т. е. Унікальні тільки 5000 символів, друга ж половина, ще 5000 знаків тексту - не унікальні. Ми з вами беремо унікальний текст обсягом ще 15 000 символів і впроваджуємо в файл таким чином, щоб їх не було видно, але вони враховувалися при перевірці. В результаті ми маємо 25 000 знаків, з яких не унікальні - 5000, тобто вже не 50, а 20 відсотків ...

Як визначити, чи є в файлі «захований текст»?

Текст впроваджується на рівні XML. Файл формату DOCX по суті своїй є архівом, який містить всі наявні в тексті зображення, графіки, фігури і т. П. І власне сам текст і його розмітку - в форматі XML. Ось туди-то і впроваджують шматки унікального тексту, забезпечуючи їх атрибутами, які перешкоджають показу тексту в документі. Тим часом, де-факто, текст цей є, і якщо перевіряти файл цілком, то він враховується при оцінці унікальності.

Звідси маємо першу прикмету того, що перевіряється вами файл оброблений - якщо перевіряти файл цілком - маємо один результат, а якщо виділити текст і скопіювати його в програму, що виконує перевірку - інший. Але як же, все-таки, твердо дізнатися - чи маємо ми справу з чистим файлом, або в ньому прихований шматок унікального тексту?

Тож почнемо. Беремо підозрюваний файл і відкриваємо його в Word. Тепер копіюємо весь текст і вставляємо його в «Блокнот», результат зберігаємо в файл формату TXT, «Блокнот» закриваємо.

Тепер у нас є два файли вихідний файл, я його у себе назвав «Зразок 1» і створений файл у форматі TXT, я його назвав «Зразок 2».

Запускаємо Word, на панелі інструментів переходимо на вкладку «Рецензування», на стрічці шукаємо «Порівняти» і в випадаючому меню вибираємо «Об'єднати».

Як виявити модифікацію текстового файлу з цілю штучного підвищення унікальності

У віконці вказуємо вихідний файл і вийшов ТХТ:

Натисніть на зображення для збільшення

Нас цікавлять великі масиви тексту, які «видалені». Бачите, ось вони, в самому низу колонки? Спробуємо максимально збільшити цей текст.

Ось він при максимальному збільшенні:

Спостерігаємо цікавий ефект - слово в тексті є, пошуком воно знайшлося, але ось ДЕ воно - Word показати не може.

На довершення, для повноти картини, давайте все-таки заглянемо в XML. Для цього я міняю розширення файлу DOCX на ZIP і розархівуйте його як звичайний архів. Ось що є всередині:

Причому знаходимо ми його не просто так, а в контексті цілого шматка тексту, якого чомусь зовсім немає, якщо відкрити текстовий файл в Word. Слідом йде ще кілька шматків тексту ... Я думаю розповідь на цьому можна закінчувати - шуканий захований шматок «баластного» тексту, що підвищує загальну унікальність тексту - знайдений.