Файл - навіщо потрібен, основні директиви, як виглядає, my dao seo

Багато починаючі веб-майстри рано чи пізно стикаються з поняттям Роботс. У цьому пості ми дізнаємося, що означає robots.txt і для чого він потрібен.
Robots.txt - це файл в кореневій директорії сайту, який обмежує пошуковим роботам індексацію даних на сервері.
Говорячи більш простою мовою, Роботс забороняє пошуковикам заходити на певні сторінки або розділи вашого сайту, наприклад, доступ в адмінку сайту або особистий кабінет. Зазвичай закривають службові папки або файли, технічні сторінки, дублікати і не унікальні сторінки.
Як виглядає файл robots txt
Ось як повинен виглядати приклад файлу для CMS WordPress
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: / cgi-bin /
Disallow: / wp-admin /
Disallow: / cases
Disallow: / wp-includes /
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed
Disallow: * / feed
Allow: / wp-content / themes / mytheme / *
Allow: / wp-includes / js / jquery / *
Allow: / wp-content / plugins / *
Allow: / wp-content / uploads / *
Clean-Param: utm_sourceutm_mediumutm_campaign
Як бачимо, вміст robots.txt досить велике. Але не потрібно лякатися, все зрозуміло і зрозуміло. Давайте розберемося разом.
Директиви файлу robots.txt
User-agent
Це головна директива, вона визначає, для яких роботів прописані правила.
Наприклад, для всіх роботів
Allow і Disallow
Якщо перевести ці слова, то досить просто зрозуміти, що означають директиви allow і disallow в robots.txt. Allow дозволяє роботу сканувати сторінки або розділи, а disallow цього не дозволяє.
Наприклад, дана команда повністю забороняє весь сайт до індексації.
User-agent: *
Disallow: / articles / kak-prodvinut-sait /
User-agent: *
Disallow: / articles *
Allow: / articles / kak-prodvinut-sait /
Додатково ще потрібно сказати про спецсимволи:
* - означає, що правило може бути застосовано для всіх документів розділу. Вище я прописав відносний шлях Disallow: / articles * - це значить, від індексу закриті всі статті. Якби я прописав абсолютний шлях Disallow: / articles /, то закритий був би тільки розділ статей, але самі статті продовжували б індексуватися.
User-agent: *
Disallow: / articles *
# Закриває від індексу всі сторінки розділу статей
$ - скасовує спецсимвол * (закриває від робота тільки те, що написано до спецсимволи $). наприклад:
User-agent: *
Disallow: / articles $
# Від індексу закритий тільки розділ статей, але самі статті продовжують індексуватися.
Crawl-delay
Директива crawl-delay в robots.txt зустрічається не так часто. Якщо сервер перевантажений і йому не вистачає потужності відпрацьовувати запити, наприклад, великий інтернет магазин з величезною кількістю товару, то рекомендується використовувати цю команду.
Директива задає роботу період часу між закінченням завантаження однієї сторінки і початком завантаження іншої. наприклад:
User-agent: *
Disallow: / catalog $
Crawl-delay: 6
# Робот буде завантажувати сторінки з таймаут в 6 секунд
Clean-param
В даному випадку директива clean-param буде записана ось так:
User-agent: *
Disallow:
Clean-param: site /articles/kak-prodvinut-sait.php
В результаті даної команди робот зведе всі сторінки до однієї
Директива host використовується тільки ПС Яндекс і Mail. Він потрібен, щоб показати роботу основне дзеркало сайту (з www або без www), яке буде брати участь в пошуку. наприклад:
В даному випадку основне дзеркало сайту без www. Також потрібно сказати, що протокол http в хості вказувати не потрібно, однак, https обов'язково. наприклад,
Читайте також, як зробити правильний переїзд сайту з http на https. Хост повинен прописуватися в Роботс тільки один раз, місце розташування його особливого значення не має, але за правилами найкраще помістити його в кінці.
Директиву можна прописати кілька разів, особливо це актуально для великих інтернет магазинів, де величезна кількість сторінок, і в один XML файл все сторінки не вміщаються. Розташування sitemap.xml також особливого значення не має, але за правилами хорошого тону слід його розташовувати в самому низу Роботс.
Це основні команди robots.txt. Є ще й інші, але вони не підтримуються більшістю пошукових систем.
Що закривати в robots txt
Роботс буде відрізнятися для різних сайтів, в залежності від того, на якій платформі він розроблений. Сайт може бути самопісний, на платному або безкоштовному движку (CMS) або зроблений за допомогою конструктора. У будь-якому випадку універсального варіанту немає, потрібно відштовхуватися саме від вашої ситуації.
У мене є пост, яким повинен бути Роботс для основних видів CMS, можете почитати докладніше, якщо ви хочете скласти його самостійно саме для вашого сайту.
Є речі, ще один спосіб скласти Роботс самому. Потрібно знайти кілька сайтів з такою ж CMS, як у вас і скласти свій Роботс на їх прикладі. Для того, щоб знайти і подивитися файл robots.txt чужого сайту, потрібно до домену прописати /robots.txt. наприклад:
Таким чином ви можете підглянути, проаналізувати і скомпонувати свій власний файл Роботс.
Вам також сподобається:
- Атрибут rel canonical - як ...

- Як правильно писати ...

- Як створити карту сайту sitemap.xml

- Як правильно скласти ТЗ для ...
