Пошукової павук (краулер) види і функції
Пошуковий павук (інші назви - робот, веб-павук, краулер) - програма пошукової системи, що сканує веб-ресурси для відображення відомостей про них в базі даних.
З якою метою створюють пошукових павуків?
1) відкриває головну сторінку;
2) заходить в розділ «Найпопулярніші твори»;
3) оцінює новинки зі списку;
5) Новомосковскет анотацію і, якщо вона цікава, викачує файл.
Зазначені дії віднімають у Валерія 10 хвилин. Однак, якщо витрачати на пошук 10 хвилин в день, на місяць це вже 5 годин. Замість цього до задачі можна залучити програму, що відстежує новинки за розкладом. По механізму дії вона буде являти собою найпростішого веб-павука, заточеного під виконання певних функцій. Без краулерів не виживе жодна пошукова система, будь то лідери Google і «Яндекс» або підприємливі стартапи. Боти переміщаються по сайтам, відшукуючи сировину для пошукової системи. При цьому чим з більшою віддачею працює павук, тим актуальніше результати видачі (рис. 1).
Мал. 1. Схема роботи краулер
Мал. 2. Відмінності в перевірках краулер (схема)

Мал. 3. Приклад простого файлу robots.txt
Залежно від пошукової системи, функції, які ми перерахуємо нижче, можуть виконувати один або кілька роботів.
1. Сканування контенту сайту. Функція краулер першого порядку - виявлення новостворених сторінок і збір розміщеної текстової інформації.
2. Зчитування графіки. Якщо пошукова система має на увазі пошук графічних файлів, для цієї мети може бути введений окремий веб-павук.
Види пошуковий роботів
У пошукових систем є кілька павуків, кожен з яких підтримує виконання запрограмованих функцій (рис. 2).
Павуки «Яндекс»
павуки Google
Ввічливі павуки - як навчити роботів правилами поведінки
В robots.txt прописують:
User-Agent: Twitterbot Allow: / images
Розшифруємо ці дані:
Важливий робот завжди представляється і вказує в заголовку запиту реквізити, які дають можливість веб-майстру зв'язатися з власником. Для чого вводяться обмеження? Власники ресурсів зацікавлені в залученні реальних користувачів і не бажають, щоб програми будували на їх контенті свій бізнес. Для цих цілей сайти часто налаштовують на обслуговування браузерних HTTP-запитів і лише за тим - запитів від програм.