Управління індексацією сайту за допомогою файлу - статіевскій данила, блог
Пошукові роботи (або спайдери, павуки, пошукові машини і т.д.) постійно нишпорять по веб-сторінкам, обробляючи, що міститься на них інформацію. Веб-майстер може керувати поведінкою пошукових систем на своєму сайті двома способами: за допомогою мета-тегів, або файлу robots.txt. Розглянемо докладніше другий спосіб.
Формат запису файлу robots.txt
У файлі robots.txt вказується: якому роботу і що НЕ треба індексувати на сервері. Взагалі, записи в цьому файлі складені з декількох груп інструкцій, а простіше кажучи - блоків (поділюваних символом нового рядка), кожен з яких призначений для одного або декількох роботів. Назва робота вказується в першому рядку блоку (параметр User-agent. Його наявність в robots.txt обов'язково):
User-agent: robot1 robot2 robot3. де:
robot1, robot2 і robot3 - назви пошукових роботів. наприклад:
User-agent: WebCrawler Lycos StackRambler
Як бачите, назви пошукових роботів іноді відрізняються від назв пошукових систем (в нашому прикладі: робота пошукової системи Rambler "звуть" StackRambler). У більшості випадків, однак, писати назви роботів не потрібно. Досить просто написати:
User-agent: *. тут знак "*" означає, що запис відноситься до всіх роботам (в файлі може бути тільки одна така рядок).
Далі йде другий рядок:
шлях - частина URI, який заборонено відвідувати роботу. Можна вказувати повністю або частково (будь-URI, що починається з вказаного значення роботу відвідувати заборонено). Для кожного об'єкта, забороненого до індексації потрібно писати окремий Dissallow.
Зверніть увагу. вказуються не абсолютні, а відносні шляхи.
Disallow: / topsecret / - забороняє доступ до директорії з таким ім'ям, але не забороняє файли з таким ім'ям, тобто файл topsecret.html буде проіндексований, а всі файли в директорії / topsecret / - немає.
Disallow: / privat - забороняє доступ як для тек таким ім'ям, так і до файлів.
Disallow: /folder/file.htm - забороняє доступ до певного файлу в певній директорії.
З прикладу видно, що для кожного об'єкта, забороненого до індексування, записується окремий рядок Disallow. Пусте значення параметра Disallow означає, що всі URL можуть завантажуватися. У файлі robots.txt повинен бути, принаймні, один параметр Disallow. Параметр Disallow завжди відноситься тільки до попереднього параметру User-agent, тому для кожного параметра User-agent потрібно задавати свої параметри Disallow.
Приклади запису файлів
Найпростіше зрозуміти синтаксис файлу robots.txt і навчитися грамотно його використовувати можна на конкретних прикладах. Нижче наведені приклади кількох типових записів в цей файл.
User-agent: StackRambler Googlebot
Disallow:
User-agent: *
Disallow: / tmp /
Disallow: / logs /
У цьому прикладі всім роботам забороняється відвідувати директорії tmp і logs, і тільки роботам StackRambler і Googlebot дозволено відвідувати все.
# I hate search engines!
У цьому прикладі всім роботам заборонена будь-яка діяльність на сайті.
User-agent: *
Disallow: / private / letters /
# This is top secret directory.
Disallow: / cgi-bin /
Disallow: /anektods.html
У цьому прикладі всім роботам забороняється відвідувати сторінки, що знаходяться в директоріях / private / letters / і / cgi-bin /, а так же файл anektods.html.
Це найпростіший випадок. Всім роботам можна обробляти будь-які документи на сервері.
Крім управління індексацією сайту, robots.txt зараз вирішує ще суміжну інформує завдання за допомогою двох директив:
Як же захистити інформацію від сторонніх? Найочевидніше - не розміщувати її на загальнодоступних ресурсах. Якщо це дійсно важлива інформація, навіщо викладати її в глобальну Мережу? Якщо ж інформацію все-таки треба викласти, використовуйте в заголовках документів мета-тег "robots". І встановити належну систему аутентифікації.
Заборона на індексацію певних сторінок роботами корисний, коли потрібно позбавити пошуковик від різної сміттєвої інформації - дублюючого контенту на сайті, технічних і беззмістовних сторінок і іншого, що не представляє цінності для пошукового робота. Так Ви знизите кількість його роботи на сайті і поспособствуете поліпшенню індексованих корисної інформації (яка потім призведе до Вас на сайт відвідувачів з пошукових систем).
Думаю, в цій статті описано все, що потрібно знати про управління діями пошукових роботів на сайті. Якщо ж хтось хоче більш глибоко вивчити це питання, рекомендую відвідати наступні ресурси Інтернет: