Роботи пошукових систем, creative way projects
- Визначення і термінологія
- імена роботів
- Трохи історії
- Що роблять роботи пошукових систем
- Поведінка роботів на сайті
- управління роботами
- висновки
Що таке роботи пошукових систем? Яку функцію вони виконують? Які особливості роботи пошукових роботів? Тут мипостараемся дати відповідь на ці та деякі інші питання, пов'язані з роботою роботів.
Визначення і термінологія
В англійській мові існує кілька варіантів назв пошукових роботів: robots, web bots, crawlers, spiders; в українській мові фактично прижився один термін - роботи, або скорочено - боти.
На сайті www. robotstxt. org дається таке визначення роботам:
«Веб-робот - це програма, яка обходить гіпертекстову структуру WWW, рекурсивно запитуючи і витягуючи документи».
Іменароботов
Більшість пошукових роботів мають своє унікальне ім'я (крім тих роботів, які з якихось причин маскуються під призначені для користувача браузери).
Ім'я робота можна побачити в полі User-agent серверних лог-файлів, звітах систем серверних статистик, а також на сторінках допомоги пошукових систем.
Трохи історії
Навіть в імені основного робота Яндекса можна знайти відлуння минулих днів: фрагмент його повного імені «compatible; Win16; »був доданий для сумісності з деякими старими веб-серверами.
Чтоделаютроботипоісковихсістем
Які ж функції можуть виконувати роботи?
У пошуковій машині функціонує кілька різних роботів, і у кожного своє призначення. Перерахуємо деякі з завдань, які виконуються роботами:
Як приклад наведемо список роботів Яндекса. Яндекс використовує кілька видів роботів з різними функціями. Ідентифікувати їх можна по рядку User-agent.
- Yandex / 1.01.001 (compatible; Win 16; I) основний індексує робот.
- Yandex / 1.01.001 (compatible; Win 16; P) -індексатор картинок.
- Yandex / 1.01.001 (compatible; Win 16; H) -робота, определяющійзеркала сайтів.
- Yandex / 1.03.003 (compatible; Win 16; D) -робота, обращающійсяк сторінці при додаванні її через форму «Додати URL».
- Yandex / 1.03.000 (compatible; Win 16; М) - робот, обращающійсяпрі відкритті сторінки за посиланням «Знайдені слова».
- YandexBlog / 0.99.101 (compatible; DOS3.30; Mozilla / 5.0; В; robot) - робот, що індексує xml-файли для пошуку по блогам.
- YandexSomething / 1.0 - робот, що індексує новинні потоки партнерів Яндекс.Новостей і файли robots. txt для робота пошуку по блогам.
Крім того, в Яндексі працює кілька перевіряючих роботів - «просту-ківалок», які тільки перевіряють доступність документів, але не індексують їх.
І все-таки найбільш поширені роботи - це ті, які запитують, отримують і архівують документи для подальшої обробки іншими механізмами пошукової системи. Тут доречно буде відокремити робота від індексатора.
Поведінка роботів на сайті
Чим відрізняється поведінка робота на сайті від поведінки звичайного користувача?
Як може виглядати HTML-сторінка в очах робота, ми не знаємо, але можемо спробувати собі це уявити, відключаючи в браузері відображення графіки і стильового оформлення.
Таким чином, можна зробити висновок, що пошукові роботи закачують в свій індекс HTML-структуру сторінки, але без елементів оформлення і без картинок.
управління роботами
Як же веб-майстер може керувати поведінкою пошукових роботів на своєму сайті?
Однак роботи великих пошукових систем дотримуються правил винятків, більш того, вносять в них свої розширення.
Про інструкціях спеціального файлу robots.txt. і про спеціальний мета-теге robots докладно розповідалося в главі 6 «Як зробити сайт доступним для пошукових систем».
Управляти відвідинами пошукових роботів можна і побічно, наприклад, робот пошукової системи Google частіше буде повторно забирати ті документи, на які багато посилаються з інших сайтів.
Роботи - необхідна і дуже важлива складова частина пошукових систем. Якщо уявити пошукову систему як «чорний ящик», де видача результатів пошуку - це «вихід» системи, то пошукові роботи - це «вхід», на який надходять документи.
Якщо грамотно подавати свої сторінки на цей «вхід», керуючи поведінкою пошукового робота, можна домогтися кращих результатів індексації - періодичності, повноти і кращого ранжирування.