Як правильно створити правила настройки і перевірки для новачків, seo своїми руками

Як правильно створити правила настройки і перевірки для новачків, seo своїми руками

Для чого потрібен robots.txt, і де розміщувати цей файл - такі ж важливі питання, як і правильність його написання. Почну з того, для чого він потрібен.

Файл robots.txt містить перелік інструкцій для роботів пошукових систем, які дозволяють, але частіше - забороняють роботам-павукам переглядати окремі документи на сайті або цілі розділи. Наприклад, не переглядати сторінки з архіву або версії документів для друку.

Правильна настоянка robots.txt дозволяє:

  1. Закрити від індексації конфіденційні документи на сайті;
  2. Вирішити проблему дублів, закривши їх від роботів-павуків пошукових систем.

Якщо robots.txt відсутня, то роботи пошукових систем будуть переглядати будь-який документ сайту.

Скільки файлів robots.txt може бути на сайті?

Назва файлу повинна бути в нижньому регістрі (robots.txt, а не Robots.txt або ROBOTS.TXT)

Правила настройки файлу robots.txt

Файл складається зі спеціальних команд для пошукових роботів - директив, розглянемо їх більш детально:

User-agent: Yandex (основний робот Яндекса)

User-agent: Googlebot (основний робот Гугла)

User-agent: (ім'я будь-якого іншого робота ПС)

User-agent: * (означає: для всіх інших роботів)

Необхідно суворо дотримуватися правил написання директив. А саме: перед кожною директивою User-agent повинна бути порожній рядок, а всі інші директиви, які стосуються Вашого блоку - йти після неї (кожна директива повинна прописуватися з великої літери з нового рядка, при цьому містити не більше одного правила). Вміст директиви (то що йде через пробіл після «:» прописується в нижньому регістрі, за винятком назви роботів).

Директива Disallow використовується для заборони роботам індексації файлів.

Disallow: / cgi-bin / (забороняємо індексувати всі, що лежить в папці cgi-bin)
Disallow: * .php (забороняє індексувати всі файли містять .php)
Disallow: / (забороняє індексувати всі файли)

Директива Allow дозволяє індексувати файли. Ставити її потрібно перед директивою Disallow.

Директива Host використовується для робота Яндекса, для вказівки головного дзеркала сайту. При цьому дуже важливо знати, що в директиві Host прописується той url, який Ви збираєтеся просувати. Тобто, якщо Ви просуваєте свій сайт без www, то і в директиві Host необхідно прописувати його без www.

User-agent: Yandex
Host: adblogger.ru

Директива Crawl-delay необхідна для того, щоб задати роботу мінімальну паузу між закачуванням двох документів з сайту. Це необхідно, якщо сайт знаходиться на повільному сервері, який може «впасти» через частого звернення робота пошукової системи. Час вказується в секундах.

Робот буде робити паузи в 2 секунди між закачуємо двох документів. Робот Яндекса підтримує дробові значення параметра (0.5 2.5 і т.д.), Однак далеко не всі пошукові системи слідують даної інструкції. Директиву Crawl-delay необхідно ставити після директив Allow і Disallow

Використання спецсимволов * і $ в файлах robots.txt

При вказівці вмісту директив Allow і Disallow можна використовувати спецсимволи * і $. Спецсимвол * замінює будь-яку послідовність символів, а спецсимвол $ вказує на кінець url (тобто після нього вже нічого не мається на увазі).

Ще хочеться відзначити, що сайти можуть бути написані на різних движках (CMS). Тому при написанні robots.txt слід приділити цьому велику увагу, і прочитати про особливості саме вашої CMS, щоб правильно закрити від індексації документи сайту.

Закриття дублів і «сміття» через файл robots.txt

Для більшості сайтів має сенс закривати:

Як перевірити robots.txt?