Управління індексацією сайту за допомогою файлу - статіевскій данила, блог

Пошукові роботи (або спайдери, павуки, пошукові машини і т.д.) постійно нишпорять по веб-сторінкам, обробляючи, що міститься на них інформацію. Веб-майстер може керувати поведінкою пошукових систем на своєму сайті двома способами: за допомогою мета-тегів, або файлу robots.txt. Розглянемо докладніше другий спосіб.

Формат запису файлу robots.txt

У файлі robots.txt вказується: якому роботу і що НЕ треба індексувати на сервері. Взагалі, записи в цьому файлі складені з декількох груп інструкцій, а простіше кажучи - блоків (поділюваних символом нового рядка), кожен з яких призначений для одного або декількох роботів. Назва робота вказується в першому рядку блоку (параметр User-agent. Його наявність в robots.txt обов'язково):

User-agent: robot1 robot2 robot3. де:

robot1, robot2 і robot3 - назви пошукових роботів. наприклад:

User-agent: WebCrawler Lycos StackRambler

Як бачите, назви пошукових роботів іноді відрізняються від назв пошукових систем (в нашому прикладі: робота пошукової системи Rambler "звуть" StackRambler). У більшості випадків, однак, писати назви роботів не потрібно. Досить просто написати:

User-agent: *. тут знак "*" означає, що запис відноситься до всіх роботам (в файлі може бути тільки одна така рядок).

Далі йде другий рядок:

шлях - частина URI, який заборонено відвідувати роботу. Можна вказувати повністю або частково (будь-URI, що починається з вказаного значення роботу відвідувати заборонено). Для кожного об'єкта, забороненого до індексації потрібно писати окремий Dissallow.

Зверніть увагу. вказуються не абсолютні, а відносні шляхи.

Disallow: / topsecret / - забороняє доступ до директорії з таким ім'ям, але не забороняє файли з таким ім'ям, тобто файл topsecret.html буде проіндексований, а всі файли в директорії / topsecret / - немає.

Disallow: / privat - забороняє доступ як для тек таким ім'ям, так і до файлів.

Disallow: /folder/file.htm - забороняє доступ до певного файлу в певній директорії.

З прикладу видно, що для кожного об'єкта, забороненого до індексування, записується окремий рядок Disallow. Пусте значення параметра Disallow означає, що всі URL можуть завантажуватися. У файлі robots.txt повинен бути, принаймні, один параметр Disallow. Параметр Disallow завжди відноситься тільки до попереднього параметру User-agent, тому для кожного параметра User-agent потрібно задавати свої параметри Disallow.

Приклади запису файлів

Найпростіше зрозуміти синтаксис файлу robots.txt і навчитися грамотно його використовувати можна на конкретних прикладах. Нижче наведені приклади кількох типових записів в цей файл.

User-agent: StackRambler Googlebot
Disallow:

User-agent: *
Disallow: / tmp /
Disallow: / logs /

У цьому прикладі всім роботам забороняється відвідувати директорії tmp і logs, і тільки роботам StackRambler і Googlebot дозволено відвідувати все.

# I hate search engines!

У цьому прикладі всім роботам заборонена будь-яка діяльність на сайті.

User-agent: *
Disallow: / private / letters /
# This is top secret directory.
Disallow: / cgi-bin /
Disallow: /anektods.html

У цьому прикладі всім роботам забороняється відвідувати сторінки, що знаходяться в директоріях / private / letters / і / cgi-bin /, а так же файл anektods.html.

Це найпростіший випадок. Всім роботам можна обробляти будь-які документи на сервері.

Крім управління індексацією сайту, robots.txt зараз вирішує ще суміжну інформує завдання за допомогою двох директив:

Як же захистити інформацію від сторонніх? Найочевидніше - не розміщувати її на загальнодоступних ресурсах. Якщо це дійсно важлива інформація, навіщо викладати її в глобальну Мережу? Якщо ж інформацію все-таки треба викласти, використовуйте в заголовках документів мета-тег "robots". І встановити належну систему аутентифікації.

Заборона на індексацію певних сторінок роботами корисний, коли потрібно позбавити пошуковик від різної сміттєвої інформації - дублюючого контенту на сайті, технічних і беззмістовних сторінок і іншого, що не представляє цінності для пошукового робота. Так Ви знизите кількість його роботи на сайті і поспособствуете поліпшенню індексованих корисної інформації (яка потім призведе до Вас на сайт відвідувачів з пошукових систем).

Думаю, в цій статті описано все, що потрібно знати про управління діями пошукових роботів на сайті. Якщо ж хтось хоче більш глибоко вивчити це питання, рекомендую відвідати наступні ресурси Інтернет:

Пов'язані записи: