індексування сайту

Індексування сайту - загальна назва процесу включення даних про сторінках сайту в базу даних пошукової системи. Ця назва походить від терміна «індекс», яким позначається найбільш важлива частина пошукової бази. Тільки після завершення процесу індексування будь-який документ стає доступним для пошуку і може відображатися на сторінках результатів пошуку (SERP).

Сканування сторінок здійснюють сервери сканування, що діють за розкладом. На них запускаються процеси, звані пошуковими роботами або ботами. Завдання робота - послати HTTP-запит по заданій посиланням, отримати документ і зберегти його. Також зберігається HTTP -заголовок відповіді для обробки виняткових ситуацій (помилки сервера. Документ недоступний. Документ був знищений. Документ переміщений). Збережені роботами сторінки стають в чергу на обробку.

Кожна просканувати сторінка має свій унікальний ідентифікатор в пошуковій базі. Коли сторінка Сканування в перший раз і потрапляє в обробку, їй присвоюється ідентифікатор і ставлять у відповідність URI сторінки.

Розбір сторінки робиться так само, як це робить браузер. Сторінка розбирається на складові частини відповідно до структури документа HTML. З кожної частини документа витягуються дані, що мають значення для пошуку. На цій стадії виділяються заголовок сторінки (. ), Мета-опис (), Витягуються посилання, тексти посилань (анкор), блоки тексту, заголовки тексту, графічні елементи. Також вибираються альтернативні тексти до графіку (атрибути alt) і додаткова інформація про елементи HTML (атрибути title).

Ведеться перевірка змін у всіх складових частинах сторінки. Зміни в текстах, нові фрагменти тексту, заголовки і інші елементи зберігаються для подальшого коректування пошукової бази. Сама база пошуку при цьому не зачіпається, її поновлення проводяться періодично, після накопичення даних.

Посилання, знайдені в ході розбору сторінки, зберігаються і обробляються окремо. Всі внутрішні посилання (провідні на інші сторінки в тому ж домені) звіряються з існуючим списком посилань для цього домену. Якщо знайдені нові посилання, яких ще немає в списку, вони ставляться в чергу на сканування. Зовнішні посилання (на інші домени) також звіряються зі списками для відповідних доменів, якщо знайдені посилання на ще не відомі системі документи, вони також ставляться в чергу на сканування. Саме так пошукова система постійно знаходить нові сторінки.

Також проводиться облік нових посилань (зовнішніх і внутрішніх) на вже відомі сторінки. Ці дані зберігаються для подальшого поповнення списків посилань.

Включення нових сторінок в пошукову базу проводиться не відразу, а періодично. Оброблені дані сканування сторінок готуються і зберігаються окремо, а поповнення зміна бази проходить за розкладом. Такий підхід продиктований необхідністю коригування безлічі пов'язаних даних для кожної нової або зміненої сторінки, які в подальшому будуть впливати на ранжирування цієї сторінки і інших, пов'язаних з нею. Такі множинні зміни має сенс проводити з досить великими обсягами даних, оскільки під час апдейта пошукової бази видача пошукача може бути істотно викривлена.

Пошукові системи ніколи не змогли б оперативно надавати свіжі та актуальні результати пошуку, якби не вибудовували цілу систему пріоритетів. Всім відомо, що новий сайт, про який пошуковику тільки що повідомили через форму додавання AddURL, навряд чи з'явиться у видачі по якомусь запиту раніше, ніж через тиждень. Але на багатьох сайтах зі стажем розміщена інформація може з'явитися в пошуку вже через годину.