Що треба знати про
Якщо виражатися поетично, то robots.txt ця лоцманська карта в море вашого сайту, саме вона вказує куди варто слідувати судну пошукового робота. Якщо говорити формальною мовою, то цей файл несе в собі набір інструкція для пошукових роботів дозволяють виключати з індексації певні сторінки сайту. Сайти одностранічнікі за великим рахунком не дуже потребують такого файлі, але от якщо у вас середній або великий сайт, то без певного набору команд вам просто не обійтися.
Кожен мисливець бажає знати
Спочатку сам файл знаходився в корені сайту на сервері, але більшість сучасних CMS (систем керування вмістом) дозволяють створити robots.txt в панелі управління сайтом.
Як створити файл robots.txt
Якщо говорити просто, то ваш файл robots.txt: рекомендує відвідувати або не відвідувати певні сторінки сайту. Такі вказівки називаються директивами, і за замовчуванням розпізнаються більшістю пошукових систем.
Директива User-agent в robots.txt:
Ми можете «заточити» ваш robots.txt як під один пошуковик, так і під дві три пошукових системи або певного бота.
- вказує директиви для всіх пошукових роботів Яндекса
- тільки для основного робота Яндекса
- директиви всі роботи Google
- всі директиви для всіх роботів одночасно
Якщо ви хочете заборонити доступ до певних сторінок свого сайту, то це буде виглядати ось так:
Дана команда блокує доступ до всього сайту
Друга команда буде блокувати доступ до всіх сторінок які починаються з «/ image».
Директива «Allow»
Це дозволяє директива, протилежність «Disallow». Їх можна використовувати разом, це виглядає так:
User-agent: * - враховуємо всі пошукові роботи
Ще один приклад:
User-agent: * - враховуємо всі пошукові роботи
Allow: / дозволяємо індексувати весь сайт
Allow: / blog / page - дозволяємо індексувати сторінки
Спеціальні знаки * і $
Спецсимвол '*' означає будь-яку (в тому числі порожню) послідовність символів
- значить що / page, / page3, / page-pf будуть закриті від пошукового робота
У свою чергу $ означає на точну відповідність
- директива «/ page *» буде закрита від пошукача, але / page3, / page-pf і інші подібні сторінки будуть без проблем індексуватися.
Важливо запам'ятати кілька правил якими потрібно керуватися при створенні robots.txt:
- Вказуйте кожну нову директиву з нового рядка.
- Прогалини в початку рядка ставити не можна.
- Параметр директиви повинен поміщатися в один рядок.
- Порожня директива «Disallow:» рівнозначна «Allow: /» - дозволити все.
- Одна директива - один параметр.
- Часта помилка початківців створення файлу з неправильним назвою - це може бути Robots.txt або ROBOTS.TXT, а може бути і так - Robot.txt. Правильне написання - robots.txt і ніяк інакше.
- Якщо ваш robots.txt буде за обсягом більше 32 Кб то пошуковики порахують що у вас всього одна директорія - «Disallow:" яка дозволяє «заглядати» в будь-які файли сайту.
- Якщо robots.txt буде порожнім, то пошуковики теж вважатимуть його дозволяє.
- У файлі бажано прописувати тільки правила і виключення - нічого зайвого, постарайтеся вмістити в кількість рядків максимум сенсу.
Якщо ви не впевнені в своєму творінні, то можете перевірити його на спеціальних сервісах перевірки:
Правда вам доведеться все-таки завантажити сформований файл на сайт, в іншому випадку сервіси нічого не побачать.
Карта сайту
тим самим ми показуємо пошуковим роботам найкоротший шлях до наших сторінок.
Директива Clean-param
Директива Crawl-delay
Якщо на ваш сервер надто часто заходять пошукові роботи, то ви можете знизити навантаження за рахунок команди.
У загальному і цілому, файл robots.txt життєво необхідний для більшості сайтів - саме він звертає увагу пошукачів в потрібне русло.