правильна настройка

При самостійному просуванні та розкрутці сайту важливо не тільки створення унікального контенту або підбір запитів в статистиці Яндекса, але і так само слід приділяти належну увагу таким показником, як індексація ресурсу пошуковими системами, бо від цього теж залежить весь подальший успіх просування.

У нас з вами є в розпорядженні два основні інструменти, за допомогою яких ми можемо управляти цим процесом. По-перше, це, звичайно ж, файл robots.txt, який допоможе нам заборонити індексувати то, що не містить основного контенту (файли движка і дублі контенту) і саме про нього і піде мова в цій статті, але крім цього існує ще один важливий інструмент - карта сайту (Sitemap xml).

Чому так важливо управляти індексацією сайту

Згадані вище інструменти дуже важливі для успішного розвитку вашого проекту і це зовсім не голослівне твердження. У статті за Sitemap xml (див. Посилання вище) я наводив у приклад результати дуже важливого дослідження по найбільш частим технічних помилок початківців вебмайстрів, там на другому і третьому місці (після того не унікального контенту) знаходяться якраз відсутність цих файлів Роботс і сайтмап, або їх неправильне складання і використання.

Треба дуже чітко розуміти, що не всі вміст інтернет проекту (файли і директорії), створеного на будь-якому движку, має бути доступне роботам пошукових систем.

Хорошим рішенням буде заборона всього зайвого в robots.txt (всі букви в назві повинні бути в нижньому регістрі - без великих літер).

До речі, якщо ви хочете дізнатися як виглядає цей файл у того чи іншого проекту в мережі, то досить буде дописати до УРЛу його головної сторінки закінчення виду /robots.txt. Це може бути корисно для розуміння того, що в ньому має бути.

Однак, при цьому треба враховувати, що для різних движків цей файл буде виглядати по різному (папки движка, які потрібно забороняти індексувати, будуть називатися по різному в різних CMS). Тому, якщо ви хочете визначитися з найкращим варіантом Роботс, припустимо для форуму на SMF, то і вивчати потрібно тільки форуми, побудовані на цьому движку.

Директиви і правила написання файлу robots.txt (disallow, user-agent, host)

Роботс має зовсім не складний синтаксис, який дуже докладно описаний, наприклад, в хелпе яндекса. Зазвичай в ньому вказується, для якого пошукового бота призначені описані нижче директиви: ім'я бота ( 'User-agent'), що дозволяють ( 'Allow') і забороняють ( 'Disallow'), а також ще активно використовується 'Sitemap' для вказівки пошуковим системам, де саме знаходиться файл карти.

Ще корисно вказати в цьому файлі, яке з дзеркал вашого вебпроектів є головним в спеціальній директиві 'Host', яку розуміє тільки Яндекс. Якщо навіть у вашого ресурсу немає дзеркал, то корисно буде вказати, який з варіантів написання є головним - з www або без нього. Оскільки це теж є свого роду дзеркалюванням. Про це я докладно розповідав в статті про 301 редирект для доменів з WWW і без нього.

Тепер поговоримо трохи про синтаксис цього файлу. Директиви в robots.txt мають такий вигляд:

<поле>:<пробел><значение><пробел>
Правильний код повинен містити хоча б одну директиву «Disallow» після кожного запису «User-agent». Порожній файл передбачає дозвіл на індексування всього сайту.

User-agent: *
Якщо ви хочете в «User-agent» задати певні умови тільки для якогось одного бота, наприклад, Яндекса, то потрібно написати так:

User-agent: Yandex
Бот кожної пошукової системи має свою назву (наприклад, для Рамблера це StackRambler). Тут я приведу список найвідоміших з них:

У великих пошукових систем іноді, крім основних ботів, є також окремі екземпляри для індексації блогів, новин, зображень і т.д. Багато інформації по різновидах ботів ви можете почерпнути на цьому ресурсі.

Наведу кілька простих прикладів використання директив з поясненням його дій.

1. Наведений нижче код дозволяє всім роботам проводити індексацію всього вмісту без будь-яких винятків. Це задається порожній директивою Disallow.

2. Наступний код, навпаки, повністю забороняє всім пошуковим системам додавати в індекс сторінки цього ресурсу. Встановлює це Disallow з «/» в поле значення.

4. У наведеному нижче прикладі будуть заборонені директорія «image», а так само всі файли і директорії, що починаються з символів «image», т. Е. Файли: «image.htm», «images.htm», каталоги: «image »,« images1 »,« image34 »і т. д.):

5. При описі шляхів для директив Allow-Disallow можна використовувати символи "*" та "$ ', задаючи, таким чином, певні логічні вирази. Символ '*' означає будь-яку (в тому числі порожню) послідовність символів. Наступний приклад забороняє всім пошуковим системам індексацію файлів з розширення «.aspx»:

Для запобігання виникнення неприємних проблем з дзеркалами сайту рекомендується додавати в robots.txt директиву Host, яка вказує боту Yandex на головне дзеркало. За правилами написання в запису для User-agent повинна бути хоча б одна директива Disallow (зазвичай ставлять порожню, нічого не забороняє):

в залежності від того, що для вас оптимальніше.

Існує ще один спосіб налаштувати (дозволити або заборонити) індексацію окремих сторінок сайту, як для Яндекса, так і для Гуглі. Для цього всередині тега «HEAD» потрібної вебсторінки дописується МЕТА-тег Robots з потрібними параметрами, і так повторюється для всіх документів, до яких потрібно застосувати ту чи іншу правило (заборона або дозвіл). Виглядати це може, наприклад, так:

Існують тільки дві пари параметрів у цього метатега: [no] index і [no] follow:

Для блогу на WordPress ви зможете налаштувати мета-тег Robots, наприклад, за допомогою плагіна All in One SEO Pack. Ну все, з теорією покінчено і пора переходити до практики, а саме до складання оптимальних robots.txt для Joomla, SMF і WordPress.

Як відомо, у проектів, створених на основі будь-якого движка (Joomla, WordPress, SMF і ін), є безліч допоміжних об'єктів не несуть ніякої інформативної навантаження.

Якщо не заборонити індексацію всього цього сміття, то час, відведений пошуковими системами на індексацію вашого сайту, буде витрачатися на перебір файлів движка (на предмет пошуку в них інформаційної складової, тобто контенту).

Але фішка в тому, що в більшості CMS контент зберігається не в файлик, а в базі даних, до якої пошуковим роботам ніяк не добратися. Полазити по сміттєвих об'єктів движка, бот вичерпає відпущений йому час і піде піймавши облизня.

Яндекс і Гугл, проводячи індексацію, виявлять дублі і, можливо, вживуть заходів до деякої пессимізації вашого ресурсу при їх великій кількості (їм теж не хочеться відшукувати зерна в купи гною).

Якщо ваш проект створений на основі будь-якого движка, то дублювання контенту матиме місце з високою ймовірністю, а значить потрібно з ним боротися, в тому числі і за допомогою заборони в robots.txt. а особливо в мета-тезі, бо в першому випадку Google заборона може і проігнорувати, а ось на метатег наплювати він вже не зможе (так вихований).

Наприклад, в WordPress сторінки з дуже схожим вмістом можуть потрапити в індекс пошук, якщо дозволена індексація і вмісту рубрик, і вмісту архіву тегів, і вмісту тимчасових архівів.

Але якщо за допомогою описаного вище мета-тега створити заборона для архіву тегів і тимчасового архіву (можна теги залишити, а заборонити індексацію вмісту рубрик), то дублювання контенту не виникне. Для цієї мети в WordPress найкраще буде скористатися можливостями плагіна All in One SEO Pack, посилання на опис якого шукайте трохи вище по тексту.

Ще складніше з дублюванням контенту йде справа в форумном движку SMF. Якщо не проводити тонке налаштування (заборона) через robots, то в пошук потраплять багаторазові дублі одних і тих же постів. В Joomla теж, до речі, іноді виникає проблема з дублюванням звичайних документів та їх копій, призначених для друку.

Підводячи підсумок скажу, що файл Роботс призначений для налаштування загальних правил заборони доступу в цілі директорії сайту, або в файли і папки, в назві яких присутні задані символи (по масці). Приклади завдання таких заборон ви можете подивитися трохи вище.

Для заборони же індексації однієї єдиної сторінки зручно використовувати саме однойменний мета-тег, який прописується в шапці (між тегами HEAD) потрібного документа. Подробиці про синтаксис метатега дивіться трохи вище по тексту.

Правильні robots.txt для Joomla, WordPress і SMF

Тепер давайте розглянемо конкретні приклади Роботс, призначеного для різних движків - Joomla, WordPress і SMF. Природно, що всі три варіанти, створені для різних CMS, будуть істотно (якщо не сказати кардинально) відрізнятися один від одного. Правда, у всіх у них буде один загальний момент і момент цей пов'язаний з пошуковою системою Яндекс.

Оскільки в рунеті Яндекс має досить велику вагу, то потрібно враховувати всі нюанси його роботи, і тут нам допоможе директива Host. Вона в явній формі вкаже цього пошуковику головне дзеркало вашого сайту.

Для неї радять використовувати окремий блог User-agent, призначений тільки для Яндекса (User-agent: Yandex). Це пов'язано з тим, що інші пошукові системи можуть не розуміти Host і, відповідно, її включення в запис User-agent, призначену для всіх пошукових систем (User-agent: *), може призвести до негативних наслідків і неправильної індексації.

Як йде справа насправді - сказати важко, бо алгоритми роботи пошуку - це річ в собі, тому краще зробити так, як радять. Але в цьому випадку доведеться продублювати в діректівеUser-agent: Yandex все ті правила, що ми задали User-agent: *. Якщо ви залишите User-agent: Yandex з порожнім Disallow. то таким чином ви дозволите Яндексу заходити куди завгодно і тягнути все підряд в індекс.

Перш, ніж перейти до розгляду конкретних варіантів, хочу вам нагадати, що перевірити роботу свого robots.txt ви можете в Яндекс вебмайстрів і Гугл вебмайстрів. Там ви зможете вказувати конкрентних урли свого ресурсу і подивитися (перевірити), чи буде даний пошуковик додавати їх в свій індекс або це дійство вдало заборонено вами в чудо-файлі.

Правильна настройка robots.txt для форуму SMF

Для форуму на движку SMF правильним буде файл наступного змісту (узятий з форуму технічної підтримки з цієї теми):

Зверніть увагу, що даний варіант наведено для того випадку, коли ваш форум SMF встановлений в директорії forum основного сайту. Якщо форум не варто в директорії, то просто видаліть з усіх правил / forum.

Дружні URL в SMF можна активувати або дезактивувати в адмінці форуму, пройшовши за наступним шляхом: в лівій колонці адмінки імені команди «Характеристики та установки», в нижній частині вікна знаходите пункт «Дозволити дружні URL«, де можете поставити або зняти галочку.

Є ще один варіант robots.txt для SMF (але, напевно, ще не остаточно відтестовані):

Як ви можете бачити в цьому файлі, директива Host, призначена тільки для Яндекса, включена в User-agent для всіх пошукових систем. Я б, напевно, все-таки додав окрему директиву User-agent тільки для Яндекса, з повтором всіх правил. Але вирішуйте самі.

пов'язане з тим, що пошукова система Yahoo (Slurp - це ім'я його пошукового бота) сканує сервер у багато потоків, що може негативно позначитися на його продуктивності.

У цьому правилі директива Crawl-delay дозволяє вказати боту Yahoo мінімальний період часу (в секундах) між кінцем закачування одного документа і початком закачування наступного. Це дозволить зняти навантаження на сервер.

Для заборони версій для друку рекомендують виконати описані нижче операції (для їх здійснення знадобиться відкрити деякі файли SMF на редагування за допомогою програми FileZilla).

У файлі Sources / Printpage.php знаходите (наприклад, за допомогою вбудованого пошуку в Notepad ++) рядок:

fatal_lang_error (472, false);
Вставляєте відразу під нею:

$ Context [ 'robot_no_index'] = true;
У файлі Themes / названіе_вашей_теми_оформленія / Printpage.template.php знаходите рядок:

Вставляєте нижче неї наступний рядок:

І вставляєте нижче рядок:

Отримати більше інформації з цього варіанту файлу robots.txt ви можете, почитавши цю гілку російськомовного форуму підтримки.

Правильний robots.txt для Joomla

Рекомендований файл для Джумли виглядає так:

В принципі, тут практично все враховано і працює він добре. Єдине, в нього слід додати окреме правило User-agent: Yandex для вставки директиви Host, що визначає головне дзеркало для Яндекса, а так само вказати шлях до файлу Sitemap.

Тому в остаточному вигляді правильний robots для Joomla, на мою думку, має виглядати так:

Так, ще зверніть увагу, що в другому варіанті немає директиви Disallow: / images /, що дає заборона індексації картинок вашого сайту. Я забув спочатку акцентувати вашу увагу на цьому, але мені про це нагадав шановний Alex.

Повністю з ним згоден в тому, що якщо зображення унікальні і ви хочете, щоб відвідувачі знаходили ваш ресурс ще й з пошуку по картинках від Яндекса і Google, то обов'язково видаліть це правило зі свого файлу, але так само не забувайте прописувати всім вашим зображенням атрибути Alt і Title в тег Img.

При створенні інтернет магазину для Joomla на основі компонента VirtueMart я зіткнувся з тим, що в індекси пошукових систем стали потрапляти версії для друку сторінок цього самого магазину. Кнопка, яка веде на сторінку для друку, була необхідна (замовник так хотів), тому залишався тільки варіант з їх забороною в robots.txt.

Але все виявилося зовсім не складно. Справа в тому, що для створення версії для друку в Джумла використовується такий же Урл вебсторінки, за винятком одного: звернення йде не до index.php, а до index2.php. При цьому не здійснюється завантаження шаблону, тобто виводиться тільки вміст на весь екран.

Тому, для заборони версій для друку в VirtueMart я додав в наступне правило:

Robots.txt для WordPress

Не буду наводити приклад файлу, який рекомендують розробники. Ви і самі можете його подивитися. Багато блогерів взагалі не обмежують ботів Яндекса і Гугла в їх прогулянках по вмісту движка WordPress. Найчастіше в блогах можна зустріти Роботс, автоматично заповнений плагіном Google XML Sitemaps.

Тому тут я приведу свій варіант, а вам вже вирішувати, використовувати його в такому вигляді, або підправити під свої потреби:

Поки що індексація блогу при такому варіанті robots.txt мене повністю влаштовує. Використовую я і однойменний мета-тег (його я додав в заголовки сторінок з тимчасовими і тегів архівами).

Для того, щоб прописати цей тег Robots, я не вдавався до виправлення коду движка WordPress. У цьому не було необхідності, тому що все це можна здійснити простий установкою або зняттям галочок у відповідних пунктах чудесного плагіна - All in One SEO Pack.

Поділіться статтею з друзями