Що таке і як його правильно скласти його функції

Процес індексації будь-якого сайту складний і ресурсномісткий. На багатьох сайтах, особливо якщо вони створені c допомогою різних движків, часто присутня інформація, яку зовсім не обов'язково індексувати.
Крім зменшення навантаження на сервер, заборона індексації деяких директорій дозволить уникнути можливого багаторазового дублювання інформації, чого не люблять всі пошукові системи.

Для чого потрібен robots.txt?

Як правильно скласти і синтаксис robots.txt

Існують як загальні правила синтаксису і директиви, так і деякі унікальні команди зрозумілі для роботів, тільки певних пошукових систем. Директива у файлі robots.txt має такий вигляд:

Отже, наприклад, код
User-agent: Yandex
Crawl-delay: 100

Задає пошуковому роботу Yandex мінімальний період часу (в секундах) між кінцем закачування однієї сторінки і початком закачування наступного. На великих порталах це дозволяє зняти зайве навантаження на сервер.
У великих пошукових систем також є окремі боти для індексування картинок, новин, блогів, що дозволяє виробляти ще більш точну настройку.

Параметри команди Disallow, задаються у вигляді маски, і, для кращого розуміння давайте розглянемо кілька простих прикладів:

Ще одна загальна директива для всіх пошукових систем це sitemap. Вказує шлях, де знаходиться карта сайту в форматі .xml. приклад:

Як приватні команд приведу приклад директиви Host, що дозволяє задати головне дзеркало сайту для Яндекса. Взагалі слід сказати, директива Host використовується і деякими іншими пошуковими системами і теоретично її можна писати в основному розділі і ті боти, яким вона не зрозуміла, повинні її просто пропустити.

User-agent: Yandex
Disallow:
Host: www.vash_site.ru
Як Ви бачите, обов'язкова умова, наявності хоча б однієї директиви Disallow виконується. Більш детально ознайомитися з назвами всіх ботів, списком унікальних директив і рекомендацій з оформлення robots.txt можна, зареєструвавшись в панелі веб-майстрів, відповідного пошукача. Так наприклад, той же Яндекс рекомендує, окремо приводити обмеження для себе (User-Agent: Yandex). Тому часто можна зустріти в robots.txt дублювання обмежень (спочатку для User-Agent: *. А потім для User-Agent: Yandex).

Приклади оптимальних robots.txt

User-agent: *
Disallow: / administrator /
Disallow: / cache /
Disallow: / includes /
Disallow: / installation /
Disallow: / language /
Disallow: / libraries /
Disallow: / media /
Disallow: / modules /
Disallow: / plugins /
Disallow: / templates /
Disallow: / tmp /
Disallow: / xmlrpc /

Для Wordpress оптимальним варіантом є наступний:

User-agent: *
Disallow: / cgi-bin
Disallow: / wp-admin
Disallow: / wp-includes
Disallow: / wp-content / plugins
Disallow: / wp-content / cache
Disallow: / wp-content / themes
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / feed / * /
Disallow: * / feed
Disallow: / *? *

Аналогічно, як і в першому прикладі можна додати директиви окремо для Яндекса.
Перевірити вірність роботи robots.txt можна в будь-якій панелі веб-майстрів, і дізнатися, чи дозволено індексація окремо взятої сторінки.

Мета-тег Robots

Існує спосіб повідомити роботам пошукових систем про те, чи можна індексувати дану конкретну сторінку чи ні. Для цього всередині тега "HEAD" потрібної сторінки, прописується meta-tag "Robots", але так потрібно робити для всіх сторінок, до яких потрібно застосувати ту чи іншу правило індексації. Приклад застосування мета-тега: