Відкрити доступ тільки пошуковикам

Навіщо відкривати пошукачам і закривати від людей

Відразу скажу, що це суперечить політиці пошукових систем. Головне правило для гарного сайту, на думку пошукачів, це вимога показувати сайт "як є". Щоб віддається вміст було однакове і для пошукових роботів і для користувачів.

Використання такого підходу може призвести до бану сайту

Навіщо відкривати сайт для індексації ботам, але закривати від відвідувачів.

Причина тут одна. Підготувати контент, який повинен потрапити в індекс (параллельнопішу про сервіс, який відправляє бота Яндекса на сайт для моментальної / за 10 хвилин погрожують / індексації зазначених сторінок), і в потрібний час його відкрити відвідувачам.

Як перевірити доступність сайту боту Яндекса

Відкрити доступ тільки пошуковикам

Пояненіе. Цифра 1 це до перевірки відповіді Яндекс сервера. Під 2 йде перевірка на доступність до індексації.

Знайшли? Тоді сторінка індексуватися яндексом і гуглом не буде і в пошук, відповідно, не потрапить. Усуньте проблему!

Повертаюся до теми про закриття сайту користувачам і при тому, щоб пошуковики могли його індексувати і обробляти.

як реалізувати

Реалізується все досить просто і ефективно. На рівні користувачів чаклувати не буде - клопоту багато, а толк не зрозуміло буде чи ні. Йдемо відразу на рівень доступу до ресурсу.

1. Відкриваємо доступ тільки собі і пошуковим роботам.

2. Закриваємо доступ всім іншим.

Технічна реалізація

Нам потрібні файли .htaccess знаходиться в корені сайту.

Перенаправлення всіх відвідувачів на інший сайт, за винятком одного IP (буває корисно при веб-розробці)

Наведений нижче код дозволяє пошуковим роботам (в даному випадку, googlebot) переглядати сторінку і робить так, щоб я, з мого IP, міг входити на сайт без пароля, а мій клієнт і відвідувачі - по паролю. Також даним кодом дозволено проведення XHTML і CSS валідації! (W3.org)

AuthName "SiteName Administration"
AuthUserFile /home/sitename.com/.htpasswd
AuthType basic
Require valid-user
Order deny, allow
Deny from all
Allow from 24 \\. 205 \\. 23 \\. 222
Allow from w3.org htmlhelp.com
Allow from googlebot.com
Satisfy Any

Думаю, є сенс перший варіант використовувати і дозволу для ботів взяти з другого.

У довідці гугла написано:

Перевірити, чи дійсно робот, який звертається до вашого сервера, є роботом Googlebot (або другімагентом користувача Google), можна за допомогою зворотного DNS-запиту. Переконавшись, що ім'я відноситься до домену googlebot.com, використовуйте прямий DNS-запит з цього імені робота Googlebot. Це корисно зробити, якщо у вас є підозри, що під виглядом робота Googlebot до вашого сайту звертаються спамери або інші зловмисники.

Деякі роботи можуть маскуватися під роботів Яндекса шляхом вказівки відповідного user-agent. Ви можете перевірити, що робот є тим, за кого себе видає використовуючи ідентифікацію, засновану на зворотних DNS запитах (reverse DNS lookup).

Для цього необхідно виконати наступне:

Після визначення імені хоста, Ви можете перевірити, чи належить він Яндексу. Імена всіх роботів Яндекса закінчуються на 'yandex.ru', 'yandex.net' або 'yandex.com'. Якщо ім'я хоста має інше закінчення, це означає, що робот не належить Яндексу.

Власне, знайдені айпішники прописуємо і все в порядку.