Як правильно створити для сайту - повне керівництво

Створення самого файлу

Robots.txt - це файл з інструкціями для пошукових роботів. Він створюється в корені сайту. Ви можете прямо зараз створити його на своєму робочому столі за допомогою блокнота, як створюється будь-який текстовий файл.

Для цього тиснемо правою кнопкою миші по порожньому простору, вибираємо Створити - Текстовий документ (НЕ Word). Він відкриється за допомогою звичайного блокнота. Назвіть його robots, розширення у нього і так вже правильне - txt. Це все, що стосується створення самого файлу.

Як правильно створити для сайту - повне керівництво

Як скласти robots.txt

Тепер залишається заповнити файл потрібними інструкціями. Власне, у команд для роботів найпростіший синтаксис, набагато простіше, ніж в будь-якій мові програмування. Взагалі заповнити файл можна двома способами:

Подивитися в іншого сайту, скопіювати і змінити під структуру свого проекту.

Так що в будь-якому випадку корисно знати основи синтаксису інструкцій для роботів, який ви зараз і розберемо.

Як писати свої інструкції роботам?

Як правильно створити для сайту - повне керівництво

Перше, з чого починається файл, це з вказівки того, до яких саме пошуковим машинам звернені інструкції. Це робиться так:

Відмінно. Зі зверненням до роботам ми розібралися. Це не складно. Ви можете уявити це на простому прикладі. У вас є троє молодших братів, Вася, Діма і Петя, а ви головний. Батьки пішли і сказали вам, щоб ви стежили за ними.

Всі троє чогось просять у вас. Уяви, що потрібно дати їм відповідь так, як ніби пишеш інструкції пошуковим роботам. Це буде виглядати приблизно так:

Таким чином, Вася радісно зашнуровує кросівки, Діма з опущеною головою дивиться у вікно на брата, який уже думає, скільки голів заб'є сьогодні (Діма отримав команду disallow, тобто заборона). Ну а Петя відправляється в своє кіно.

Наприклад, у мене є сайт site.ru. Він на движку wordpress. Починаю писати інструкції:

По-перше, я звернувся до всіх роботам. По-друге, поставив заборону на індексацію папок самого движка, але при цьому відкрив роботу доступ до папки з завантаженнями. Там зазвичай зберігаються всі картинки, а їх зазвичай не закривають від індексації, якщо планується отримувати трафік з пошуку по картинках.

Ну і пам'ятайте, я раніше в статті говорив про те, що у вас можуть бути додаткові каталоги? Ви можете їх створити самостійно для різних цілей. Наприклад, на одному з моїх сайтів є папка flash, куди я кидаю флеш-ігри, щоб потім їх запустити на сайті. Або source - в цій папці можуть зберігається файли, доступні користувачам для завантаження.

Загалом, абсолютно неважливо, як називається папка. Якщо її потрібно закрити, вказуємо шлях до неї і команду Disallow.

Команда Allow потрібна якраз для того, щоб уже в закритих розділах відкрити якісь частини. Адже за замовчуванням, якщо у вас не буде файлу robots.txt, весь сайт буде доступний до індексування. Це і добре (вже точно щось важливіше не закриєте помилково), і в той же час погано (будуть відкриті файли і папки, яких не повинно бути у видачі).

Як бачите, спочатку ми ставимо заборона на індексацію всього каталогу wp-content. У ньому зберігаються всі ваші шаблони, плагіни, але там же є і картинки. Очевидно, що їх то можна і відкрити. Для цього нам і потрібна команда Allow.

Додаткові параметри

Перераховані команди - не єдине, що можна вказати в файлі. Також є такі: Host - вказує головне дзеркало сайту. Хто не знав, у будь-якого сайту за замовчуванням є два варіанти написання його доменного імені: domain.com і www.domain.com.

Щоб не виникло проблем, необхідно вказати в якості головного дзеркала якийсь один варіант. Це можна зробити як в інструментах для веб-майстрів, як і в файлі Robots.txt. Для цього пишемо: Host: domain.com

Що це дає? Якщо хтось спробує потрапити на ваш сайт так: www.domain.com - його автоматично перекине на варіант без www, тому що він буде визнаний головним дзеркалом.

Знову ж, завантажити карту ви можете і в Яндекс.Вебмастере, також її можна вказати в robots.txt, щоб робот прочитав цю строчку і чітко зрозумів, де йому шукати карту сайту. Для робота карта сайту так само важлива, як для Васі - м'яч, з яким він піде на футбол. Це все одно, що він запитує у тебе (як у старшого брата) де м'яч. А ти йому:

Тепер ви знаєте, як правильно налаштувати і змінити robots.txt для Яндекса і взагалі будь-якого іншого пошукача під свої потреби.

Що дає настройка файлу?

Про це я також вже говорив раніше, але скажу ще раз. Завдяки чітко налагодженій файлу з командами для роботів ви зможете спати спокійніше знаючи, що робот не залізе в непотрібний розділ і не візьме в індекс непотрібні сторінки.

Я також говорив, що настройка robots.txt не рятує від усього. Зокрема, вона не рятує від дублів, які виникає через те, що движки недосконалі. Прям як люди. Ви то дозволили Васі йти на футбол, але не факт, що він там не накоїть того ж, що і Діма. Ось так і з дублями: команду дати можна, але точно не можна бути впевненим, що щось зайве поки не пролізе в індекс, зіпсувавши позиції.

Як мені отримати нормальний robots.txt, якщо я сам нічого не розумію?

Зрештою, створення robots.txt - це не створення сайту. Якось простіше, тому ви цілком можете банально скопіювати вміст файлу у будь-якого більш-менш успішного блогера. Звичайно, якщо у вас сайт на WordPress. Якщо він на іншому двигуні, то вам і сайти потрібно шукати на цих же cms. Як подивитися вміст файлу на чужому сайті я вже говорив: Domain.com/robots.txt

Я думаю, тут більше нема про що говорити, тому що не треба робити складання інструкцій для роботів вашою метою на рік. Це те завдання, яке під силу виконати навіть новачкові за 30-60 хвилин, а професіоналу взагалі всього-то за пару хвилин. Все у вас вийде і можете в цьому не сумніватися.

А щоб дізнатися інші корисні і важливі фішки для просування і розкрутки блогу, можете подивитися наш унікальний курс по розкрутці і монетизації сайту. Якщо ви застосуєте звідти 50-100% рекомендацій, то зможете в майбутньому успішно просувати будь-які сайти.

Найсвіжіші новини IT і веб-розробки на нашому Telegram-каналі

Як правильно створити для сайту - повне керівництво