Файл - навіщо потрібен, основні директиви, як виглядає, my dao seo

Багато починаючі веб-майстри рано чи пізно стикаються з поняттям Роботс. У цьому пості ми дізнаємося, що означає robots.txt і для чого він потрібен.

Robots.txt - це файл в кореневій директорії сайту, який обмежує пошуковим роботам індексацію даних на сервері.

Говорячи більш простою мовою, Роботс забороняє пошуковикам заходити на певні сторінки або розділи вашого сайту, наприклад, доступ в адмінку сайту або особистий кабінет. Зазвичай закривають службові папки або файли, технічні сторінки, дублікати і не унікальні сторінки.

Як виглядає файл robots txt

Ось як повинен виглядати приклад файлу для CMS WordPress

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: / cgi-bin /
Disallow: / wp-admin /
Disallow: / cases
Disallow: / wp-includes /
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed
Disallow: * / feed
Allow: / wp-content / themes / mytheme / *
Allow: / wp-includes / js / jquery / *
Allow: / wp-content / plugins / *
Allow: / wp-content / uploads / *
Clean-Param: utm_sourceutm_mediumutm_campaign

Як бачимо, вміст robots.txt досить велике. Але не потрібно лякатися, все зрозуміло і зрозуміло. Давайте розберемося разом.

Директиви файлу robots.txt

User-agent

Це головна директива, вона визначає, для яких роботів прописані правила.

Наприклад, для всіх роботів

Allow і Disallow

Якщо перевести ці слова, то досить просто зрозуміти, що означають директиви allow і disallow в robots.txt. Allow дозволяє роботу сканувати сторінки або розділи, а disallow цього не дозволяє.

Наприклад, дана команда повністю забороняє весь сайт до індексації.

User-agent: *
Disallow: / articles / kak-prodvinut-sait /

User-agent: *
Disallow: / articles *
Allow: / articles / kak-prodvinut-sait /

Додатково ще потрібно сказати про спецсимволи:

* - означає, що правило може бути застосовано для всіх документів розділу. Вище я прописав відносний шлях Disallow: / articles * - це значить, від індексу закриті всі статті. Якби я прописав абсолютний шлях Disallow: / articles /, то закритий був би тільки розділ статей, але самі статті продовжували б індексуватися.

User-agent: *
Disallow: / articles *
# Закриває від індексу всі сторінки розділу статей

$ - скасовує спецсимвол * (закриває від робота тільки те, що написано до спецсимволи $). наприклад:

User-agent: *
Disallow: / articles $
# Від індексу закритий тільки розділ статей, але самі статті продовжують індексуватися.

Crawl-delay

Директива crawl-delay в robots.txt зустрічається не так часто. Якщо сервер перевантажений і йому не вистачає потужності відпрацьовувати запити, наприклад, великий інтернет магазин з величезною кількістю товару, то рекомендується використовувати цю команду.

Директива задає роботу період часу між закінченням завантаження однієї сторінки і початком завантаження іншої. наприклад:

User-agent: *
Disallow: / catalog $
Crawl-delay: 6
# Робот буде завантажувати сторінки з таймаут в 6 секунд

Clean-param

В даному випадку директива clean-param буде записана ось так:

User-agent: *
Disallow:
Clean-param: site /articles/kak-prodvinut-sait.php

В результаті даної команди робот зведе всі сторінки до однієї

Директива host використовується тільки ПС Яндекс і Mail. Він потрібен, щоб показати роботу основне дзеркало сайту (з www або без www), яке буде брати участь в пошуку. наприклад:

В даному випадку основне дзеркало сайту без www. Також потрібно сказати, що протокол http в хості вказувати не потрібно, однак, https обов'язково. наприклад,

Читайте також, як зробити правильний переїзд сайту з http на https. Хост повинен прописуватися в Роботс тільки один раз, місце розташування його особливого значення не має, але за правилами найкраще помістити його в кінці.

Директиву можна прописати кілька разів, особливо це актуально для великих інтернет магазинів, де величезна кількість сторінок, і в один XML файл все сторінки не вміщаються. Розташування sitemap.xml також особливого значення не має, але за правилами хорошого тону слід його розташовувати в самому низу Роботс.

Це основні команди robots.txt. Є ще й інші, але вони не підтримуються більшістю пошукових систем.

Що закривати в robots txt

Роботс буде відрізнятися для різних сайтів, в залежності від того, на якій платформі він розроблений. Сайт може бути самопісний, на платному або безкоштовному движку (CMS) або зроблений за допомогою конструктора. У будь-якому випадку універсального варіанту немає, потрібно відштовхуватися саме від вашої ситуації.

У мене є пост, яким повинен бути Роботс для основних видів CMS, можете почитати докладніше, якщо ви хочете скласти його самостійно саме для вашого сайту.

Є речі, ще один спосіб скласти Роботс самому. Потрібно знайти кілька сайтів з такою ж CMS, як у вас і скласти свій Роботс на їх прикладі. Для того, щоб знайти і подивитися файл robots.txt чужого сайту, потрібно до домену прописати /robots.txt. наприклад:

Таким чином ви можете підглянути, проаналізувати і скомпонувати свій власний файл Роботс.

Вам також сподобається:

Атрибут rel canonical - як ...
Як правильно писати ...
Як створити карту сайту sitemap.xml
Як правильно скласти ТЗ для ...