Як подивитися сайту, який вам цікавий
В інтернеті щодня з'являються готові рішення по тій чи іншій проблемі. Немає грошей на дизайнера? Використовуйте один з тисяч безкоштовних шаблонів. Чи не хочете наймати сео-спеціаліста? Скористайтеся послугами якого-небудь відомого безкоштовного сервісу, почитайте самі пару статей.
Вже давно немає необхідності самому з нуля писати той же самий robots.txt. До слова, це спеціальний файл, який є практично на будь-якому сайті, і в ньому містяться вказівки для пошукових роботів. Синтаксис команд дуже простий, але все одно на складання власного файлу піде час. Краще подивитися в іншого сайту. Тут є кілька застережень:
Сайт повинен бути на тому ж движку, що і ваш. В принципі, сьогодні в інтернеті купа сервісів, де можна дізнатися назву cms практично будь-якого веб-ресурсу.
Це повинен бути більш менш успішний сайт, у якого все в порядку з пошуковим трафіком. Це говорить про те, що robots.txt складено нормально.

В принципі, навіть людина не особливо розбирається в коді швидко зрозуміє, що тут написати. Команда allow дозволяє що-небудь індексувати, а disallow - забороняє. User-agent - це вказівка пошукових роботів, до яких звернені інструкції. Це необхідно в тому випадку, коли потрібно вказати команди для окремого пошукача.
Що робити далі?
Копіювати всі і змінити під свій сайт. Як змінювати? Я вже говорив, що движки сайтів повинні збігатися, інакше змінювати що-небудь безглуздо - треба переписувати абсолютно все.
Отже, вам необхідно буде пройтися по рядках і визначити, які розділи із зазначених присутні на вашому сайті, а які - ні. На скріншоті вище ви бачите приклад robots.txt для wordpress сайту, причому в окремому каталозі є форум. Висновок? Якщо у вас немає форуму, всі ці рядки потрібно видалити, так як подібних розділів і сторінок у вас просто не існує, навіщо тоді їх закривати?
Найпростіший robots.txt може виглядати так:
Всі ви напевно знаєте стандартну структуру папок в wordpress, якщо хоча б 1 раз встановлювали цей движок. Це папки wp-admin, wp-content і wp-includes. Зазвичай все 3 закривають від індексації, тому що вони містять чисто технічні файли, необхідні для роботи движка, плагінів і шаблонів.
Каталог uploads відкривають, тому що в ньому міститися картинки, а їх обино індексують.
Так чи важлива настройка robots.txt?

Звичайно, необхідно мати цей файл і хоча б основні каталоги через нього закрити. Але критично чи важливо його складання? Як показує практика, немає. Я особисто бачу сайти на одних двигунах з абсолютно різним robots.txt, які однаково успішно просуваються в пошукових системах.
Я не сперечаюся, що можна зробити якусь помилку. Наприклад, закрити зображення або залишити відкритим непотрібний каталог, але чогось супер страшного не станеться. По-перше, тому що пошукові системи сьогодні розумніші і можуть ігнорувати якісь вказівку з файлу. По-друге, написані сотні статей про налаштування robots.txt і вже щось можна зрозуміти з них.
Я бачив файли, в яких було 6-7 рядків, що забороняють індексувати пару каталогів. Також я бачив файли з сотнею-другою рядків коду, де було закрито всі, що тільки можна. Обидва сайти при цьому нормально просувалися.
У wordpress є так звані дублі. Це погано. Багато боряться з цим за допомогою закриття подібних дублів так:
Це лише деякі з дублів, створюваних wordpress. Можу сказати, що так можна робити, але захисту на 100% очікувати не варто. Я б навіть сказав, що взагалі не потрібно її очікувати і проблема якраз в тому, про що я вже говорив раніше:
Пошукові системи все одно можуть забрати в індекс такі речі.
Тут вже потрібно боротися по-іншому. Наприклад, за допомогою редиректів або плагінів, які будуть знищувати дублі. Втім, це вже тема для окремої статті.
Де знаходиться robots.txt?
Загалом, сьогодні ми розглянули питання, як подивитися вміст файлу robots.txt, скопіювати його і змінити під свої потреби. Про налаштування я також напишу ще 1-2 статті найближчим часом, тому що в цій статті ми розглянули не всі. До речі, також багато інформації по просуванню сайтів-блогів ви можете знайти в нашому курсі. А я на цьому поки прощаюся з вами.
Найсвіжіші новини IT і веб-розробки на нашому Telegram-каналі
