Disallow robots txt
Що значить disallow в robots.txt?
Disallow це одна з основних директив, що входить в файл robots txt.
У robots txt disallow використовується завжди разом з директивою user-agent і служить для обмеження доступу до сторінок сайту.
Disallow в robots txt може бути кілька. Фактично кількість таких директив обмежена тільки розміром файлу robots.txt (рис.1).

Рис.1 Кількість disallow в robots.txt обмежена тільки розміром файлу
Директива disallow застосовується для кожного робота окремо. Ім'я робота вказується в директиві user-agent.
Якщо в user-agent замість імені стоїть символ зірочка (*), то disallow застосовується до всіх роботам, які відвідують сайт.
Як правильно прописати disallow
Після директиви disallow в rodots txt завжди ставиться двокрапка (:), а потім її параметри, прописувати шлях на сайті
Відсутність параметрів в директиві disallow означає повний доступ до всіх сторінок сайту, наприклад:
User-agent: * # параметр * говорить про те, що директива
# Disallow застосовна до всіх роботам
Disallow: # доступ відкритий до всіх сторінок
Параметр прямий слеш (/) в disallow robots txt закриває доступ до всіх сторінок сайту. Якщо, звичайно, він застосовується один, наприклад:
Disallow: / # доступ закритий для всіх сторінок сайту
Щоб скоротити кількість директив disallow robots.txt. можна застосовувати так звані регулярні вирази. Суть в тому, що в якості параметра в disallow вказується основний каталог, а далі застосовують спецсимвол зірочка (*). Символ * означає будь-яку послідовність символів, в тому числі і порожню. наприклад:
Disallow: / administrator / * # блокує доступ до сторінок починається з
# '/ Administrator' і далі будь-які символи
Disallow: / * / cache # блокує доступ до сторінок, шлях яких містить
За замовчуванням символ * приписується в кінці кожного правила в директиві disallow.
Тобто, якщо навіть ви не поставили в кінці символ *, вважається, що він там є. Це потрібно мати на увазі.
Це правило можна скасувати, застосувавши в директиві disallow robots txt в кінці інший спецсимвол - знак долара ($). Він скасовує правило за замовчуванням - * на кінці шляху. наприклад:
Disallow: / component # закриває доступ до сторінок, які починаються з
# 'Component', наприклад, 'component'; /, 'component.html' і т.д.
Disallow: / component $ # забороняє шлях 'component', але не закриває
# Доступ до сторінки 'component.html' і ін.
Таким чином, створюючи певні регулярні вирази з використанням спецсимволов '*' і '$', можна закривати доступ, як до цілих каталогів, так і до окремої сторінки. Це значно скорочує час на створення файлу robots.txt, а також скорочує його обсяг. Справа в тому, що файл robots.txt має обмеження за обсягом.
У robots txt директива disallow досить надійно закриває доступ до певних сторінок сайту. Тому, створивши файл, потрібно перевіряти результат його дії.
Для цього потрібно по-перше, перевірити сам файл, а потім відстежувати індексацію сторінок до і після застосування директиви disallowrobotstxt. До речі, знаходиться файл robots.txt в кореневій папці сайту.
P.S. У файлі robots.txt disallow це універсальна дірректіва для всіх видів CMS - систем. Будь то joomla, вордпресс або яка інша система управління сайтом.