Файл robots txt для сайту - приклад, настройка, як правильно скласти

Robots.txt - це службовий файл, інструкція для пошукових роботів для індексації сайту. У файлі вказуються каталоги, які не потрібно індексувати. Зазвичай це адміністраторська панель, кеш, службові файли. Розміщується в кореневій папці веб-ресурсу. Його використання необхідно для кращої індексації сторінок, захисту приватної інформації та підвищення безпеки сайту.

Часто використовується веб-майстрами разом з іншим службовим файлом, передбаченим протоколом sitemap (написаному на мові XML), який діє навпаки, надаючи карту сайту з дозволеними до читання роботами сторінками.

Файл robots txt для сайту - приклад, настройка, як правильно скласти

Robots.txt і його вплив на індексацію сайту.

На індексацію сайту також впливають швидкість і надійність хостингу. Швидкий і надійний хостинг зі знижкою до 30%!

Після створення сайту його коренева папка на хості стає доступною для пошукових систем. Роботи Новомосковскют все, що знайдуть, без розбору.

Віртуальний хостинг сайтів для популярних CMS:

WordPress хостинг

Joomla хостинг

IPB хостинг

Які сторінки варто заборонити і закрити в robots.txt?

Якщо на хості, де розміщений сайт, є панель управління, то цей файл можна створити, відкривши кореневу папку і натиснувши кнопку «новий файл» (бувають варіанти в назвах). Але краще створити файл на домашньому комп'ютері, а для завантаження скористатися каналом FTP.

Навіть якщо він написаний неправильно, це не призведе до втрати працездатності сайту, як це відбувається з неправильним файлом .htaccess.

Директиви файлу - user agent, host і т.д.

Директиви (команди) файлу пишуться на латиниці, після кожної з них ставиться двокрапка і вказується об'єкт управління.

Директиви бувають стандартні:

Розширені директиви знижують навантаження на сервер і захищають сайт від занадто настирливих парсеров.

Google, Яндекс і настройка Роботс.

Пошукові системи Google і Яндекс однаково добре Новомосковскют цей файл, але розраховувати, що його наявність послужить встановлення будь-яких особливих відносин пошукових систем з сайтом - це непотрібний романтизм, позбавлений підстав. Є деякі відмінності в тому, як можна звернутися до пошуковому роботу, адже у кожної системи їх цілий набір:

  • YandexBot і Googlebot - це звернення до основних пошуковим роботам;
  • YandexNews і Googlebot-news - роботи, які спеціалізуються на новинному контенті;
  • YandexImages і Googlebot-image - індексатори картинок.

У Яндекса пошукових роботів дев'ять, а у Google вісім. Якщо потрібно загальна індексація, то після директиви User-agent пишеться Yandex або Googlebot.

У Яндекса є ще одна особливість: його роботи Новомосковскют директиву Host, що вказує на «дзеркало» сайту. Гугл її не розуміє.

Як скласти robots.txt для Joomla.

Ось як може виглядати цей файл для новинного сайту на CMS Joomla.

User-agent: YandexNews
Disallow: / administrator
Disallow: / components
Disallow: / libraries
Allow: /index1.php
Allow: /index2.php
Request-rate: 1/20
Visit-time: 0200-0600

Перевірити правильність написання файлу robots.txt можна звернувшись в Яндексі до сервісу «Вебмастеру». Такий же Центр Веб-майстрів є і у Google.

Не потрібно використовувати цей файл як основу - в ньому просто показано використання директив.

Приклад правильного файлу robots.txt для WordPress - як заборонити все зайве.

А це - робочий файл robots.txt для CMS WordPress.

У першому блоці написані директиви для всіх пошукових роботів, вони ж дублюються для Яндекса, тільки з уточненням основної версії сайту. Як видно, з індексу виключена пагінація, службові файли і каталоги.

Читайте також: