Пошук дублів сторінок на сайті
Дубльований контент на сайті
Нечіткий дубль отримують сторінки, які частково дублюють контент. Такі сторінки мають загальну частину шаблону сайту, але відрізняються невеликим контентним наповненням. Наприклад, такими невеликими дублями можуть бути сторінки ресурсу, мають результати пошуку або окремі розділи (наприклад, картинки - таке дуже часто буває в багатьох шаблонах блогів).
На наступному малюнку я зібрав найчастіші варіанти дублів сторінок, які властиві блогу з движком Вордпресс (без урахування різних плагінів і фішок шаблону, які також часто створюють дубльовані документи):

Наявність дублів сторінок на сайті може говорити про те, що або веб-майстер не знає про їхню присутність, або він просто не вміє з ними боротися. А боротися з ними потрібно, так як вони призводять до різних помилок і проблем в плані пошукового просування. Про це зараз і поговоримо.
Чому потрібно видаляти дублі сторінок
Дубльовані сторінки - це не якийсь вірусняк або паразитує організм. Він звичайно теж плодитися, але не за рахунок себе або своїх функцій. Тобто він плодитися не по своїй волі. Дублі насправді - це результат неправильного коду сайту, підсумок огріхів веб-майстра або блогера.
Але якими б не були пасивними дублі сторінок, вони можуть підкласти конкретну свиню власнику будь-якого сайту або блогу. Отже, чим же такий небезпечний дубльований контент? Ось основні проблеми, які виникають при наявності дублів:
Отже, підсумуємо вищесказане. Дублі сторінок створюють перешкоду в нормальній індексації сайту, стають джерелом неправильного вибору пошукачем релевантної сторінки, забирають вплив природних зовнішніх посилань. Також дублі неправильно розподіляють внутрішній контрольний вагу, відбираючи силу у просуваються сторінок і змінюючи поведінкові показники:

Загалом, дублі - це велике зло в пошуковому просуванні і страшний сон оптимізатора.
Як визначити і перевірити дублі сторінок
Є різні способи пошуку і перевірки дублів сторінок. Вони вимагають різного рівня знань CMS і розуміння роботи пошукового індексу. Я покажу найпростіший із способів. Це не означає, що якщо він простий, то не точний. З його допомогою легко знаходяться дублікати документів сайту. І найголовніше - цей спосіб не вимагає особливих знань і не займе багато часу.
Для того, щоб знайти і перевірити свій сайт на наявність дублікатів сторінок, потрібно або скористатися розширеним пошуком Яндекса (Гугла) або відразу ввести в пошуковий рядок спеціальний запит. Спочатку розглянемо перший варіант.
Перевірка сайту на дублі за допомогою розширеного пошуку

Далі ми натискаємо заповітне слово «Знайти» і український пошуковик починає формувати видачу. Вона вийде не тієї, яку ми зазвичай спостерігаємо - вона буде складатися повністю з заголовків і фрагментів тільки нашого ресурсу. Причому, якщо у видачі буде тільки один результат пошуку, то все добре - дубльованого контенту цієї сторінки немає. Якщо ж є в отриманому серпі кілька результатів, то доведеться діставати лопату:

У моєму прикладі пошуковик знайшов кілька нечітких дублів - ряд сторінок з пагінацію за деякими рубриками. Відразу видно, що на даному сайті сторінка з виділеним текстом про рецепт салату явно розміщувалася відразу в різних рубриках. А так як заборона на індексацію сторінок пагінацію для цього ресурсу не ставилося, в індексі повилазили всілякі дублі.
Тепер розглянемо ті ж дії для зарубіжного пошукача. Заходимо на сторінку розширеного пошуку Google і робимо ті ж самі дії:

Заповнивши все необхідне на розширеному пошуку, отримуємо індексацію досліджуваного сайту згідно із зазначеним шматку тексту:

Як бачимо, Гугл також проіндексував неточні дублі досліджуваної сторінки - у видачі все ті ж сторінки рубрик.
В принципі отримати ті ж самі результати можна і не використовуючи розширений пошук. Для цього потрібно в найпростішому варіанті Гугла або Яндекса прописати наступний запит. І в цьому полягає другий спосіб визначення дублів.
Пошук дублів сторінок за допомогою спеціального запиту
За допомогою розширеного пошуку легко знаходяться всі дублікати за заданим текстом. Звичайно, за допомогою даного способу ми не отримаємо дублі сторінок, які не містять текст. Наприклад, якщо дубль створюється «кривим» шаблоном, який для чогось показує на іншій сторінці картинку, яка знаходиться на сторінці-оригіналі. То такий дублікат вище описаним способом знайти не вийде. В такому випадку доведеться використовувати інший спосіб.
Його суть проста - за допомогою спеціального оператора ми запитуємо індексацію всього нашого сайту (або окремої сторінки) і вже вручну дивимося видачу в пошуках дубликаторов. Ось правила синтаксису цього запиту:


Як видно на зображенні, в основній видачі у нас знаходиться одна сторінка сайту і вона ж є оригіналом. Але в індексі є й інші сторінки, які є дублями. Щоб їх побачити, потрібно натиснути на посилання «Показати приховані результати»:

У підсумку нам видається список дублів, які Гугл проіндексував і пов'язав зі сторінкою-оригіналом (цифра 1 на зображенні). У моєму прикладі такими дублями стали сторінки з позиціями 2 і 3.

До речі, якщо ми трохи змінимо наш запит, то можемо отримати ті ж результати, що дає розширений пошук дублів по шматочку тексту:
У наступній статті Ви дізнаєтеся, як можна прибрати дублі сторінок. До зустрічі!
З повагою, Ваш Максим Довженко