Disallow robots txt

Що значить disallow в robots.txt?

Disallow це одна з основних директив, що входить в файл robots txt.

У robots txt disallow використовується завжди разом з директивою user-agent і служить для обмеження доступу до сторінок сайту.

Disallow в robots txt може бути кілька. Фактично кількість таких директив обмежена тільки розміром файлу robots.txt (рис.1).

Disallow robots txt

Рис.1 Кількість disallow в robots.txt обмежена тільки розміром файлу

Директива disallow застосовується для кожного робота окремо. Ім'я робота вказується в директиві user-agent.

Якщо в user-agent замість імені стоїть символ зірочка (*), то disallow застосовується до всіх роботам, які відвідують сайт.

Як правильно прописати disallow

Після директиви disallow в rodots txt завжди ставиться двокрапка (:), а потім її параметри, прописувати шлях на сайті

Відсутність параметрів в директиві disallow означає повний доступ до всіх сторінок сайту, наприклад:

User-agent: * # параметр * говорить про те, що директива

# Disallow застосовна до всіх роботам

Disallow: # доступ відкритий до всіх сторінок

Параметр прямий слеш (/) в disallow robots txt закриває доступ до всіх сторінок сайту. Якщо, звичайно, він застосовується один, наприклад:

Disallow: / # доступ закритий для всіх сторінок сайту

Щоб скоротити кількість директив disallow robots.txt. можна застосовувати так звані регулярні вирази. Суть в тому, що в якості параметра в disallow вказується основний каталог, а далі застосовують спецсимвол зірочка (*). Символ * означає будь-яку послідовність символів, в тому числі і порожню. наприклад:

Disallow: / administrator / * # блокує доступ до сторінок починається з

# '/ Administrator' і далі будь-які символи

Disallow: / * / cache # блокує доступ до сторінок, шлях яких містить

За замовчуванням символ * приписується в кінці кожного правила в директиві disallow.

Тобто, якщо навіть ви не поставили в кінці символ *, вважається, що він там є. Це потрібно мати на увазі.

Це правило можна скасувати, застосувавши в директиві disallow robots txt в кінці інший спецсимвол - знак долара ($). Він скасовує правило за замовчуванням - * на кінці шляху. наприклад:

Disallow: / component # закриває доступ до сторінок, які починаються з

# 'Component', наприклад, 'component'; /, 'component.html' і т.д.

Disallow: / component $ # забороняє шлях 'component', але не закриває

# Доступ до сторінки 'component.html' і ін.

Таким чином, створюючи певні регулярні вирази з використанням спецсимволов '*' і '$', можна закривати доступ, як до цілих каталогів, так і до окремої сторінки. Це значно скорочує час на створення файлу robots.txt, а також скорочує його обсяг. Справа в тому, що файл robots.txt має обмеження за обсягом.

У robots txt директива disallow досить надійно закриває доступ до певних сторінок сайту. Тому, створивши файл, потрібно перевіряти результат його дії.

Для цього потрібно по-перше, перевірити сам файл, а потім відстежувати індексацію сторінок до і після застосування директиви disallowrobotstxt. До речі, знаходиться файл robots.txt в кореневій папці сайту.

P.S. У файлі robots.txt disallow це універсальна дірректіва для всіх видів CMS - систем. Будь то joomla, вордпресс або яка інша система управління сайтом.