Пошукові системи - як вони влаштовані (частина перша), записки блогера

А тепер Новомосковськ статтю

«Пошукові системи - як вони влаштовані».

Сучасні пошукові машини обробляють десятки тисяч звернень в
секунду. Як це це відбувається?

Пошукові системи на фізичному рівні

Сучасна пошукова машина - це дуже складна структура, що складається з сотень тисяч, а в Google - мільйонів фізичних серверів. Вся інформація. яка на них зберігається, розподілена і надійно захищена по дата-центрам усього світу.

Серверне приміщення Яндекса

Логічна схема роботи пошукових систем

Коли користувач хоче щось знайти в інтернеті. він вводить запит. Цей запит обробляється «балансувальник навантаження» - спеціалізованим пристроєм, який автоматично перенаправляє запит користувача в найменш завантажений на даний момент кластер. Це дозволяє максимально ефективно використовувати наявні обчислювальні потужності.

Потім пошуковий запит перенаправляється в «метапошук». Ця система отримує всі необхідні дані і дізнається, до якого типу даних цей запит відноситься. На цьому ж етапі запит перевіряється на орфографію, тут же визначається, з якого регіону надійшов запит і чи варто за нього показувати регіональні сайти.

Логічна схема обробки запиту Яндекса

А тепер перейдемо до найбільш животрепетного питання для кожного власника сайту і з'ясуємо. як же відбувається

процес індексування

Індексація - це такий процес, під час якого пошукові роботи «здійснюють похід» по сайтах і збирають з їх сторінок різноманітну інформацію і заносять її в спеціальні бази даних. Ось завести з ними особисте знайомство! 🙂 Потім ці дані якимось чином обробляються, і по ним будується індекс - витримка з документів (веб сторінок). Саме за індексом пошукова система шукає і видає посилання на сайти, виходячи з запитів користувачів.
Розглянемо процес індексування на прикладі Яндекса. У пошуковій системі є 2 типи роботів: швидкий (швидко-робот) і основний.
Завдання основного робота - індексація всього контенту, а швидкого - занесення в бази даних найсвіжішою інформацією. Планувальник пошукового робота становить маршрути відвідування і передає його «павука», який ходить по обраним сторінкам і викачує з них інформацію. Якщо під час індексації в документах виявляються нові посилання, вони додаються до загального списку.

Послідовність процесів індексування Яндекса.

Документи в індекс потрапляють двома способами:

2) Або власник сайту може сам додати URL через спеціальну форму ( «аддурілку») або через встановлену на сайті Яндекс.Метрику. Цей сервіс передає url сторінок на індексацію Яндексу. При бажанні можна не встановлювати код Метрики на сайт або відключити цю опцію її в інтерфейсі.

А тепер ми плавно перейшли до поняття

Швидкість індексації та оновлення сторінок

В ідеалі, новостворена сторінка повинна бути відразу ж проіндексована. Однак великі обсяги інформації ускладнюють швидкість індексації нових сторінок і поновлення старих. Роботи пошукових систем постійно оновлюють пошукову базу даних, але щоб вона була доступна користувачам, її необхідно переносити на «базовий пошук». База даних переноситься туди не повністю. Виключаються дзеркала сайтів, сторінки, що містять пошуковий спам і інші непотрібні, на думку пошукової машини, документи. Однак для деяких типів інформації така швидкість оновлення неприйнятна. Наприклад процес індексування новинних сайтів. Розміщення новини повинні бути доступні в пошуковій системі практично відразу після їх додавання. Для прискорення індексації часто оновлюваних сторінок і існує спеціальний «швидкий робот». який відвідує новинні сайти кілька разів в день.

Типи роботів пошукових систем

Серед всіх існуючих пошукових роботів варто виділити чотири основних:
➜➜ індексує робот,
➜➜ робот по зображеннях,
➜➜ робот по дзеркалах сайту;
➜➜ робот, який перевіряє працездатність сайту або сторінки.
Деякі сторонні роботи можуть маскуватися під роботів Яндекса шляхом вказівки відповідного user-agent. Ви можете перевірити справжність
робота за допомогою ідентифікації, заснованої на зворотних DNS-запитах.

Індексує робот виявляє і індексує сторінки, щоб створити базу для основного пошуку. Робот із зображень заносить в індекс графічну інформацію, яка в подальшому відображається у видачі відповідного сервісу, наприклад, Яндекс.Зображення або Зображення Google. Робот, який визначає дзеркала, перевіряє дзеркала сайтів, прописаних в файлі robots.txt. Якщо вони ідентичні, то в результатах видачі пошукової системи буде тільки один сайт - головне дзеркало.

Що б не стомлювати вас більш дуже розлогою статтею, просто скажу, що

Коли керівництву потрібно оцінити ефективність роботи співробітників, в хід йдуть будь-які засоби. Насамперед начальство перевірить вашу активність в інтернеті і ...

Традиційно ближче до Нового року Яндекс порадував вебмайстрів новим алгоритмом. І назва у нового алгоритму красиве - «Палех», і штука сама ...

В останні місяці все частіше стали з'являтися матеріали про так званих Push-повідомлення. Незважаючи на те, що цю розробку програмістів вже кілька ...

Пошукові системи - як вони влаштовані (частина перша), записки блогера