Роботи і як з ними боротися

Дуже важлива тема - взаємовідносини з пошуковими та іншими роботами. Давно відомо, що не всім роботам ми раді. Ще не так давно рунет лихоманило від лихих наскоків індексатора пошукової системи Webalta (спи спокійно, дорогий товаришу, недовгим було наше знайомство). На совісті цього робота заблоковані сайти через занадто частих і численних запитів без паузи. Нерідко скаржаться на робота Yahoo - індексує часто і багато, породжує чималий вихідний трафік, а власнику сайту він абсолютно нецікавий, немає з нього цільових відвідувачів, та й не очікується.

Запрягаємо могутній модуль mod_rewrite:

Ось таке «заклинання» відвадить від вас пошукових роботів, які залишать у змінній оточення сервера HTTP_USER_AGENT рядок, що містить "Yahoo" або "Igde". Правило перетворення гранично просте - (. *) Означає «0 і більше будь-яких символів» в URL, мінус в якості підстановки - "не перетворювати», а прапори [F, L] - віддати статус «403 Forbidden» і на цьому закінчити обробку. Замість запитаної сторінки настирливий робот отримає пару сотень байт HTTP-заголовка, який оголошує йому заборона доступу. Мінімум зайвого трафіку і скриптів не потрібно генерувати сторінку, оскільки видаючи заборона доступу, сервер не запустить запитаний URL в обробку.

При такому збігу обставин бот, Новомосковскющій багато і часто, створить відчутну додаткове навантаження на сервер, іноді аж до відключення сайту хостером за перевищення ресурсних лімітів. Такі випадки були, коли Webalta агресивно індексувала сайти рунету, не піклуючись про будь-якому нормуванні трафіку. Проекти, які і без того працювали зі значним навантаженням, просто «лягали кістьми» під напором індексатора, зазвичай сторінки в декілька паралельних потоків і без пауз.