Що треба знати про

Якщо виражатися поетично, то robots.txt ця лоцманська карта в море вашого сайту, саме вона вказує куди варто слідувати судну пошукового робота. Якщо говорити формальною мовою, то цей файл несе в собі набір інструкція для пошукових роботів дозволяють виключати з індексації певні сторінки сайту. Сайти одностранічнікі за великим рахунком не дуже потребують такого файлі, але от якщо у вас середній або великий сайт, то без певного набору команд вам просто не обійтися.

Кожен мисливець бажає знати

Спочатку сам файл знаходився в корені сайту на сервері, але більшість сучасних CMS (систем керування вмістом) дозволяють створити robots.txt в панелі управління сайтом.

Як створити файл robots.txt

Якщо говорити просто, то ваш файл robots.txt: рекомендує відвідувати або не відвідувати певні сторінки сайту. Такі вказівки називаються директивами, і за замовчуванням розпізнаються більшістю пошукових систем.

Директива User-agent в robots.txt:

Ми можете «заточити» ваш robots.txt як під один пошуковик, так і під дві три пошукових системи або певного бота.

- вказує директиви для всіх пошукових роботів Яндекса

- тільки для основного робота Яндекса

- директиви всі роботи Google

- всі директиви для всіх роботів одночасно

Якщо ви хочете заборонити доступ до певних сторінок свого сайту, то це буде виглядати ось так:

Дана команда блокує доступ до всього сайту

Друга команда буде блокувати доступ до всіх сторінок які починаються з «/ image».

Директива «Allow»

Це дозволяє директива, протилежність «Disallow». Їх можна використовувати разом, це виглядає так:

User-agent: * - враховуємо всі пошукові роботи

Ще один приклад:

User-agent: * - враховуємо всі пошукові роботи

Allow: / дозволяємо індексувати весь сайт

Allow: / blog / page - дозволяємо індексувати сторінки

Спеціальні знаки * і $

Спецсимвол '*' означає будь-яку (в тому числі порожню) послідовність символів

- значить що / page, / page3, / page-pf будуть закриті від пошукового робота

У свою чергу $ означає на точну відповідність

- директива «/ page *» буде закрита від пошукача, але / page3, / page-pf і інші подібні сторінки будуть без проблем індексуватися.

Важливо запам'ятати кілька правил якими потрібно керуватися при створенні robots.txt:

  • Вказуйте кожну нову директиву з нового рядка.
  • Прогалини в початку рядка ставити не можна.
  • Параметр директиви повинен поміщатися в один рядок.
  • Порожня директива «Disallow:» рівнозначна «Allow: /» - дозволити все.
  • Одна директива - один параметр.
  • Часта помилка початківців створення файлу з неправильним назвою - це може бути Robots.txt або ROBOTS.TXT, а може бути і так - Robot.txt. Правильне написання - robots.txt і ніяк інакше.
  • Якщо ваш robots.txt буде за обсягом більше 32 Кб то пошуковики порахують що у вас всього одна директорія - «Disallow:" яка дозволяє «заглядати» в будь-які файли сайту.
  • Якщо robots.txt буде порожнім, то пошуковики теж вважатимуть його дозволяє.
  • У файлі бажано прописувати тільки правила і виключення - нічого зайвого, постарайтеся вмістити в кількість рядків максимум сенсу.

Якщо ви не впевнені в своєму творінні, то можете перевірити його на спеціальних сервісах перевірки:

Правда вам доведеться все-таки завантажити сформований файл на сайт, в іншому випадку сервіси нічого не побачать.

Карта сайту

тим самим ми показуємо пошуковим роботам найкоротший шлях до наших сторінок.

Директива Clean-param

Директива Crawl-delay

Якщо на ваш сервер надто часто заходять пошукові роботи, то ви можете знизити навантаження за рахунок команди.

У загальному і цілому, файл robots.txt життєво необхідний для більшості сайтів - саме він звертає увагу пошукачів в потрібне русло.