ідентифікатор сесії
Як це відіб'ється на становищі сайту в пошуку - неважко здогадатися. Для тих, хто не здогадався, карта: відіб'ється дуже погано. Виявивши в індексі велику кількість сторінок-дублікатів, пошуковик оцінить якість виконання сайту як дуже низька, що неминуче позначиться на позиціях в пошуку. Але це ще не все. Пошуковику зовсім не потрібно витрачати свій дисковий простір на ваші нескінченні дублі, тому він рано чи пізно почне чистити базу від цього сміття. Не розраховуйте на розумний підхід до чищення: пошуковик - не людина, а тупа машина, думати він не вміє, міркувати не навчений і інтуїції йому не дано. Тому нема чого дивуватися, якщо він вимете зі своєї бази все мотлох (в тому числі посилання без ідентифікаторів), а залишить найсвіжіше і актуальне (посилання з ідентифікаторами, які зібрав при останньому обході сайту). Або викине сторінку без ідентифікатора, а з ідентифікатором залишить, бо Вася Пупкін дав на неї посилання в своєму блозі, а на сторінку без ідентифікатора ніяких посилань немає. Значить, вона менш важлива.
Чарівних кнопок на всі випадки життя не буває. Тому шляхи можуть бути різними в залежності від цілей, які ви ставите. Наприклад, для форуму і для інтернет-магазину можливі принципово різні рішення.
Найпростіший вихід - взагалі заборонити механізм «прозорою ідентифікації» сесій, залишивши ідентифікацію тільки через Cookie. Так, наприклад, побудована робота форуму SEO-board. В php для повної заборони досить змінити налаштування, прописавши в .htaccess ось таке заклинання:
Порівняно новий метод, пошуковими системами він підтримується не так давно. Реалізується програмно, в секцію
сторінки потрібно впровадити тег канонізації:Майже те ж саме, що і з канонізацією. У разі, якщо в запиті клієнта вказано URI з ідентифікатором сесії, в секцію
вставляється мета-тег robots із забороною індексування сторінки. Наприклад, ось так:Або так (не рекомендується):
Обидва варіанти захисту з тегами (канонізація і мета robots) мають один явний недолік: щоб пошуковик «дізнався», що цю сторінку не можна брати в індекс, він повинен спочатку її вважати і розібрати. Оскільки обхід сторінок сайту роботи проводять не відразу, а невеликими порціями в порядку черги, це відволікає бота на сканування і розбір непотрібних сторінок. А значить, нові потраплять в індекс пізніше, ніж хотілося б; спочатку бот буде обходити раніше заплановані «дублі».