Faqed як налаштувати своїми руками
Правильна, грамотна настройка кореневого файлу robots.txt одна з найважливіших завдань WEB-майстра. У разі непробачних помилок в пошуковій видачі може з'явитися безліч непотрібних сторінок сайту. Або, навпаки, будуть закриті для індексування важливі документи вашого сайту, в гіршому випадку, можна закрити для пошукових роботів всю кореневу директорію домену.
Правильна настройка файлу robots.txt своїми руками, насправді, завдання не дуже складна. Прочитавши цю статтю, ви навчитеся премудростям директив, і самостійно написати правила для файлу robots.txt на своєму сайті.
Для створення файлу robots.txt використовується певний, але не складний синтаксис. Використовуваних директив не багато. Розглянемо правила, структуру і синтаксис файлу robots.txt покроково і детально.
Загальні правила robots.txt
По-перше, сам файл robots.txt повинен мати кодування ANSI.
По-друге, не можна використовувати для написання правил ніяких національних алфавітів, можлива тільки латиниця.
Структурно файл robots.txt може складатися з одного або декількох блоків інструкцій, окремо для роботів різних пошукових систем. Кожен блок або секція мають набір правил (директив) для індексації сайту тієї чи іншої пошуковою системою.
У самих директивах, блоках правил і між ними не допускаються будь-які зайві заголовки і символи.
Секції в файлі robots.txt
Кожна із секцій є самостійною. Секцій може бути кілька, для роботів кожної або деяких пошукових систем, так і одна універсальна, для всіх роботів або роботів однієї їх систем. Якщо секція одна, то починається вона з першого рядка файлу і займає все рядки. Якщо секцій кілька, то вони повинні бути розділені символом нового рядка, хоча б однієї.
Секція завжди починається з директиви User-agent і містить ім'я пошукової системи, для роботів якої призначена, якщо це не універсальна секція для всіх роботів. На практиці це виглядає так:
User-agent: YandexBot
# Юзер-агент для роботів системи Яндекс
User-agent: *
# Юзер-агент для всіх роботів
Перераховувати кілька імен ботів заборонено. Для ботів кожної пошукової системи створюється своя секція, свій окремий блок правил. Якщо, в вашому випадку, правила для всіх роботів однакові, використовуйте одну універсальну, загальну секцію.
Директиви, що це?
Директива - це команда або правило сообщающее пошуковому роботу певну інформацію. Директива повідомляє пошуковому боту, як індексувати ваш сайт, які каталоги не проглядається, де знаходиться карта сайту в форматі XML, яке ім'я домена є головним дзеркалом і деякі інші технічні подробиці.
Секція файлу robots.txt складається з окремих команд,
директив. Загальний синтаксис директив такий:
[Імя_діректіви]: [необов'язковий пробіл] [значення] [необов'язковий пробіл]
Директива пишеться в один рядок, без переносів. За прийнятим стандартам, між директивами в одній секції пропуск рядка не допускається, тобто всі директиви однієї секції пишуться на кожному рядку, без додаткових пропусків рядків.
Давайте опишемо значення основних використовуваних директив.
Директива Disallow
Найбільш використовувана директива в файлі robots.txt, це «Disallow» - забороняє. Директива «Disallow» забороняє індексацію зазначеного в ній шляху. Це може бути окрема сторінка, сторінки, що містять зазначену «маску» в своєму URL`е (шляху), частина сайту, окрема директорія (папка) або сайт цілком.
User-agent: Yandex
Disallow: /
Спеціальні символи
Зазначений вище приклад забороняє індексацію всього сайту для роботів пошукової системи Яндекс.
Тепер, для кращого розуміння інших прикладів, розглянемо і пояснимо, що таке спеціальні символи у файлі robots.txt. До спеціальних символів відносяться знаки (*) - зірочка, ($) - долар і (#) - решітка.
«*» - зірочка означає - «будь-яку кількість символів». Тобто, шлях / folder * однаковий за своїм значенням з «/ folders», «/ folder1», «/ folder111», «/ foldersssss» або «/ folder». Роботи, при читанні правил, автоматично дописують знак «*». У прикладі, наведеному нижче, обидві директиви абсолютно рівнозначні:
Disallow: / news
Disallow: / news *
«$» - знак долара забороняє роботам при читанні директив автоматично дописувати символ «*» (зірочка) в кінці директиви. Іншими словами, символ «$» означає кінець рядка порівняння. Тобто, в нашому прикладі ми забороняємо індексацію папки «/ folder», але не забороняємо в папках «/ folder1», «/ folder111» або «/ foldersssss»:
User-agent: *
Disallow: / folder $
Директива Allow
Директива ALLOW файлу robots.txt протилежна за своїм значенням директиві DISSALOW, директива ALLOW роздільна. У прикладі нижче показано, що ми забороняємо індексувати весь сайт крім папки / folder:
User-agent: *
Allow: / folder
Disallow: /
Приклад одночасного використання «Allow», «Disallow» і пріоритетність
User-agent: *
Allow: / folders
Disallow: / folder
У наведеному прикладі вище дозволена індексація URL`ов починаються з «/ folders», але заборонена в шляхах, які мають в своїх URL`ах початок «/ folder», «/ folderssss» або «/ folder2». У разі потрапляння однакового шляху під обидві директиви «Allow» і «Disallow», перевага віддається директиві «Allow».
Пусте значення параметра в директивах «Allow» і «Disallow»
Зустрічаються помилки WEB-майстрів, коли в файлі robots.txt в директиві «Disallow»
забувають вказати символ «/». Це є неправильним, помилковим трактуванням значень директив і їх синтаксису. В результаті, яка забороняє директива стає роздільною: «Disallow:" абсолютно ідентична «Allow: /». Правильний заборона на індексацію всього сайту виглядає так:
Те ж саме можна сказати і про «Allow:». Директива «Allow:» без символу «/» забороняє індексацію всього сайту, так само як і «Disallow: /».
Директива Sitemap
За всіма канонами SEO-оптимізації, необхідно використовувати карту сайту (SITEMAP) в форматі XML і надавати її пошуковим системам.
Незважаючи на функціональність «кабінетів для WEB-майстрів» в пошукових системах, необхідно заявляти про присутність sitemap.xml і в robots.txt за допомогою директиви «SITEMAP». Пошукові роботи при обході вашого сайту побачать вказівку на файл sitemap.xml і будуть обов'язково використовувати його при наступних обходах. Приклад використання директиви sitemap в файлі robots.txt:
Директива Host
Ще однією важливою директивою robots.txt є директива HOST.
Вважається, що не всі пошукові системи її розпізнають. Але «Яндекс» вказує, що Новомосковскет цю директиву, а Яндекс вУкаіни є основним «пошуковим годувальником», тому не будемо ігнорувати директиву «host».
User-agent: *
Host: www.domen.ru
Якщо ви хочете, щоб ваше головне дзеркало було без префікса (WWW), то, відповідно, слід вказати в директиві ім'я сайту без префікса.
Директива HOST вирішує проблему дублів сторінок, з якої дуже часто стикаються WEB-майстра і SEO-фахівці. Тому директиву HOST потрібно використовувати обов'язково, якщо ви націлені на російськомовний сегмент і вам важливо ранжування вашого сайту в пошуковій системі «Яндекс». Повторимося, на сьогодні про читання цієї директиви заявляє тільки «Яндекс». Для вказівки головного дзеркала в інших пошукових системах необхідно скористатися налаштуваннями в кабінетах WEB-майстрів. Не забувайте, що ім'я головного дзеркала має бути зазначено коректно (правильність написання, дотримання кодування і синтаксису файлу robots.txt). У файлі ця директива допускається тільки один раз. Якщо ви помилково вкажете її кілька разів, то роботи врахують тільки перше входження.
Директива Crawl-delay
User-agent: Yandex
Crawl-delay: 5.5
Директива Clean-param
www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folderpage=page1/
www.domain.zone/ index.php? folder = 1page = 1
Пошукові роботи будуть сканувати всі подібні сторінки і помітять, що сторінки однакові, містять один і той же контент. По-перше, це створить плутанину в структурі сайту при індексації. По-друге, додаткове навантаження на сервер зросте. По-третє, швидкість сканування помітно впаде. Щоб уникнути цих неприємностей і використовується директива «Clean-param». Синтаксис наступний:
Clean-param: param1 [param2param3param4. param * N] [Шлях]
Директиву «Clean-param», як і «Host» Новомосковскют не всі пошукові системи. Але Яндекс її розуміє.
Помилки, які часто зустрічаються в robots.txt
Файл robots.txt знаходиться не в корені сайту
Файл robots. txt повинен розміщуватися в корені сайту. тільки в кореневій директорії. Всі інші файли з таким же ім'ям, але знаходяться в інших папках (директоріях) ігноруються пошуковими системами.
Помилка в імені файлу robots.txt
Файл пишеться маленькими літерами (нижній регістр) і повинен називатися robots.txt. Всі інші варіанти вважаються помилковими і пошукові стсеми будуть вам повідомляти про відсутність файлу. Часті помилки виглядають так:
ROBOTS.txt
Robots.txt
robot.txt
Використання неприпустимих символів в robot.txt
Помилки синтаксису robots.txt
Намагайтеся строго дотримуватися правил синтаксису в файлі robots.txt. Синтаксичні помилки можуть привести до ігнорування вмісту всього файлу пошуковими системами.
Перерахування декількох роботів одним рядком в директиві User-agent
Помилка, часто допускається початківцями WEB-майстрами, скоріше через власну лінь, не розбивати файл robots.txt на секції, а об'єднувати команди для декількох пошукових систем в одній секції, наприклад:
User-agent: Yandex, Googlebot, Bing
Для кожної пошукової системи необхідно створювати свою окрему секцію, з урахуванням тих директив, які Новомосковскет ця пошукова система. Винятком, в даному випадку, є єдина секція для всіх пошукових систем:
User-agent з порожнім значенням
Директива User-agent не може мати пусте значення. Порожніми можуть бути тільки «Allow» і «Disallow» і то з урахуванням того, що змінюють своє значення. Вказівка директиви User-agent з порожнім значенням є грубою помилкою.
Кількох значень в директиві Disallow
Рідше зустрічається помилка, але, тим не менш, періодично її можна бачити на сайтах, це вказівка декількох значень в директивах Allow і Disallow, наприклад:
Disallow: / folder1 / folder2 / folder3
Disallow: / folder1
Disallow: / folder2
Disallow: / folder3
Недотримання пріоритетів директив в robots.txt
Ця помилка була описана вище, але для закріплення матеріалу повторимося. Раніше пріоритет визначався порядком вказівки директив. На сьогоднішній день правила змінилися, пріоритет уточнюється по довжині рядка. Якщо у файлі будуть присутні дві взаємовиключні директиви, Allow і Disallow з однаковим вмістом, то пріоритет буде мати Allow.
Пошукові системи і robots.txt
Директиви в файлі robots.txt носять рекомендаційний характер для пошукових систем. Це означає, що правила прочитання можуть періодично змінюватися або доповнюватися. Так само пам'ятайте, що кожна пошукова система по-своєму обробляє директиви файлу. І не всі директиви кожна з пошукових систем Новомосковскет. Наприклад, директиву «Host» сьогодні Новомосковскет тільки Яндекс. При цьому Яндекс не гарантує, що ім'я домену вказане, як головне дзеркало в директиві Host обов'язково буде призначено головним, але стверджує, що пріоритет зазначеному імені в директиві буде віддаватися.
Якщо у вас невеликий набір правил, то можна створити єдину секцію для всіх роботів. В іншому випадку, не лінуйтеся, створіть окремі секції для кожної цікавить вас пошукової системи. Особливо це відноситься до заборонам, якщо ви не хочете, щоб якісь певні сторінки потрапили в пошук.
В основному, всі помилки у файлі robots.txt виникають через неакуратність, неохайність пише директиви. Щоб уникати переважної більшості помилок, дотримуйтесь «правила хорошого тону». Помилками через неохайності вважаються такі помилки:
Чергування малих і великих літер в іменах директивах
На цьому урок зі створення файлу robots.txt успішно вами пройдений. Тепер ви знаєте всі необхідні знання для заповнення цього важливого файлу.
Вдалого Вам просування своїх сайтів!
Знак (#) - решітка, октоторп (від латині octothorpe - вісім кінців), хеш, знак номера, дієз (або Шарп (англійське sharp), через зовнішньої схожості цих двох символів), знак фунта (знак # часто використовують, якщо відсутня технічна можливість введення символу фунта).
Сторінка згенерована за 0,0337 s
Що таке landing Page (Посадкова Сторінка)
Що таке landing Page (Посадкова Сторінка). Для чого потрібна посадкова сторінка (Landing Page). Як зробити Landing Page. Яка структура Landing Page. Керівництво по створенню цільової сторінки.
Що таке Google PageRank?
PageRank що це таке? Як вимірюється PR сайту.
Індекс цитування. Що це таке - тИЦ.
Індекс цитування. Що це таке - тИЦ.
Семантичне ядро
Семантичне ядро. Що це таке? Як створити Семантичне ядро.