Пошукової павук (краулер) види і функції

Пошуковий павук (інші назви - робот, веб-павук, краулер) - програма пошукової системи, що сканує веб-ресурси для відображення відомостей про них в базі даних.

З якою метою створюють пошукових павуків?

1) відкриває головну сторінку;

2) заходить в розділ «Найпопулярніші твори»;

3) оцінює новинки зі списку;

5) Новомосковскет анотацію і, якщо вона цікава, викачує файл.

Зазначені дії віднімають у Валерія 10 хвилин. Однак, якщо витрачати на пошук 10 хвилин в день, на місяць це вже 5 годин. Замість цього до задачі можна залучити програму, що відстежує новинки за розкладом. По механізму дії вона буде являти собою найпростішого веб-павука, заточеного під виконання певних функцій. Без краулерів не виживе жодна пошукова система, будь то лідери Google і «Яндекс» або підприємливі стартапи. Боти переміщаються по сайтам, відшукуючи сировину для пошукової системи. При цьому чим з більшою віддачею працює павук, тим актуальніше результати видачі (рис. 1).

Мал. 1. Схема роботи краулер

Мал. 2. Відмінності в перевірках краулер (схема)

Пошукової павук (краулер) види і функції

Мал. 3. Приклад простого файлу robots.txt

Залежно від пошукової системи, функції, які ми перерахуємо нижче, можуть виконувати один або кілька роботів.

1. Сканування контенту сайту. Функція краулер першого порядку - виявлення новостворених сторінок і збір розміщеної текстової інформації.

2. Зчитування графіки. Якщо пошукова система має на увазі пошук графічних файлів, для цієї мети може бути введений окремий веб-павук.

Види пошуковий роботів

У пошукових систем є кілька павуків, кожен з яких підтримує виконання запрограмованих функцій (рис. 2).

Павуки «Яндекс»

павуки Google

Ввічливі павуки - як навчити роботів правилами поведінки

В robots.txt прописують:

User-Agent: Twitterbot Allow: / images

Розшифруємо ці дані:

Важливий робот завжди представляється і вказує в заголовку запиту реквізити, які дають можливість веб-майстру зв'язатися з власником. Для чого вводяться обмеження? Власники ресурсів зацікавлені в залученні реальних користувачів і не бажають, щоб програми будували на їх контенті свій бізнес. Для цих цілей сайти часто налаштовують на обслуговування браузерних HTTP-запитів і лише за тим - запитів від програм.

Читайте інші статті на тему «Пошукової павук»:

Корисні посилання