коротко про
Файл robots.txt знаходиться в кореневій директорії сайту і містить спеціальні інструкції для пошукових роботів.
Ці інструкції можуть забороняти до індексації деякі розділи або сторінки на сайті, вказувати на правильне дзеркало домену, рекомендувати пошуковому роботу дотримуватися певний часовий інтервал між скачуванням документів з сервера.
Щоб створити файл robots.txt, потрібен простий текстовий файл. Якщо ви не збираєтеся створювати заборони до індексації, можна зробити порожній файл robots.txt.
У файл robots.txt зазвичай пишуть щось на кшталт:
У цьому прикладі заборонена індексація трьох директорій.
Зауважте, що кожна директорія вказана на окремому рядку - не можна написати «Disallow: / cgi-bin / / tmp /». Не можна також розбивати одну інструкцію Disallow або User-agent на кілька рядків, тому що перенос рядка використовується для відділення інструкцій один від одного.
Регулярні вирази і символи підстановки так само не можна використовувати. «Зірочка» (*) в інструкції User-agent означає «будь-який робот». Інструкції виду «Disallow: * .gif» або «User-agent: Ya *» не підтримуються.
Конкретні інструкції в robots.txt залежать від вашого сайту і того, що ви захочете закрити від індексації. Ось кілька прикладів:
Заборонити весь сайт для індексації всіма роботами:
Дозволити всім роботам індексувати весь сайт:
Або можете просто створити порожній файл «/robots.txt».
Закрити від індексації тільки кілька каталогів:
Заборонити індексацію сайту тільки для одного робота:
Дозволити індексацію сайту одному роботу і заборонити всім іншим:
Заборонити до індексації всі файли крім одного:
Це досить непросто, тому що не існує інструкції "Allow". Замість цього можна перемістити всі файли крім того, який ви хочете дозволити до індексації в піддиректорію і заборонити її індексацію:
Або ви можете заборонити всі заборонені до індексації файли:
Розберемося що означають поля (директиви) і їх значення у файлі robots.txt:
User-Agent
- значенням цього поля повинно бути ім'я пошукового робота, якому в цьому записі встановлюються права доступу.
- якщо в запису вказано більше одного імені робота, то права доступу розповсюджуються для всіх зазначених імен.
- заголовні або рядкові символи ролі не грають
- якщо в якості значення цього поля вказано символ «*», то задані в цьому записі права доступу розповсюджуються на будь-яких пошукових роботів, що запитали файл /robots.txt
Disallow
- значенням цього поля повинен бути частковий URL, який не повинен індексуватися. Це може бути повний шлях або частковий; будь-який URL, що починається з такого шляху не повинен індексуватися.
Наприклад, Disallow: / help закриває і /help.html, і /help/index.html, тоді як Disallow: / help / - тільки /help/index.html.
- якщо значення Disallow не вказано, то це означає, що індексується все дерево каталогів сервера
Використання спецсимволов "*" і "$"
При вказівці шляхів директив Allow-Disallow можна використовувати спецсимволи * і $. задаючи, таким чином, певні регулярні вирази. Спецсимвол * означає будь-яку (в тому числі порожню) послідовність символів. приклади:
забороняє /cgi-bin/example.aspx і /cgi-bin/private/test.aspx
забороняє не тільки / private. але і / cgi-bin / private
За замовчуванням до кінця кожного правила, описаного в robots.txt, приписується *. наприклад:
блокує доступ до сторінок починається з / cgi-bin
спецсимвол $
Щоб скасувати \ '' * \ '' на кінці правила, можна використовувати спецсимвол $. наприклад:
забороняє / example.
але не забороняє /example.html
забороняє і / example. і /example.html
забороняє тільки / example
забороняє і /example.html і / example
Sitemap
Якщо ви використовуєте опис структури вашого сайту в форматі sitemaps.xml, і хочете, щоб робот дізнався про неї, вкажіть шлях до sitemaps.xml як параметр директиви «Sitemap» (якщо файлів декілька, вкажіть всі). приклад:
Робот запам'ятає шляху до sitemaps.xml, обробить файли і буде використовувати результати при подальшому формуванні сесій закачування.
Крім файлу robots.txt для управління пошуковими роботами існує ще й метатег robots.