Трохи про те, як працює пошук в інтернеті
Ми настільки звикли до інтернету і до того, що написавши в пошуковику потрібне слово можна знайти будь-яку інформацію, що сприймаємо це як належне. Однак, будь-то пару десятків років назад це можна було зробити тільки руками, записавшись в бібліотеку обстеживши купу словників та енциклопедій. Як інтернет-пошуковики знаходять всю цю інформацію за частки секунди? Звідки вони її взагалі беруть? Ці та деякі інші питання вирішуватися прямо в цій статті.
Зрозуміло, пошукачів існує безліч, як говоритися не Google'ом єдиним. Серед них повно відомих пошукових машин: Яндекс, Microsoft Bing, Yahoo, Duck Duck Go і, звичайно ж, Європа. Однак, загальні принципи роботи у них ідентичні, тому давайте з ними розбиратися. Але перш, трохи історії.
Трохи історії
Незабаром з'явилася безліч інших конкуруючих пошукових машин. У певному сенсі вони конкурували з популярними інтернет-каталогами, такими як «Yahoo!». Але пошукові можливості каталогів обмежувалися пошуком по самим каталогом, а не за текстами веб-сторінок. Пізніше каталоги об'єднувалися або забезпечувалися пошуковими роботами з метою поліпшення пошуку.
Основні моменти роботи пошукового движка
Трьома ключовими процесами, які дозволяють пошуковій системі видавати найбільш відповідні пошуковим запитам результати, є наступні:
сканування
Сканування - це процес, під час якого роботи виявляють нові та оновлені сторінки для додавання в свою базу. Движок використовує величезну кількість комп'ютерів, щоб витягти (або «просканувати») мільярди сторінок в Інтернеті.
Програма, яка робить вибірку, відома як робот, бот або павук (бо працює в Мережі). Бот використовує алгоритмічний процес: комп'ютерні програми, визначають які сайти сканувати і як часто, скільки сторінок проіндексувати з кожного сайту.
Нові сайти з часом переходять в статус існуючих, «мертві» (тобто не ведуть нікуди) посилання виявляються і дані використовується для оновлення індексу (бази даних). З комерційної точки зору на прикладі Google плата за те, щоб сканувати чийсь сайт частіше не приймається: вони вважають за краще тримати окремо пошуковий сервіс від своїх приносять дохід послуг AdWords.
Індексація
Індексація - процес обробки роботом кожної зі сторінок, на яку він заходить, з метою формування масивних баз даних з усіх слів, які він розпізнає і розташування цих слів на кожній сторінці. Крім того, пошуковик обробляє інформацію, розташовану в ключових тегах і атрибутах, таких як title тегах і атрибутах alt.
Обробка настає в момент, коли користувач вводить пошуковий запит, тоді пошукова система заходить в свою базу даних (індекс) для підбору найбільш відповідних запиту сторінок і повертається з результатами, які є найбільш відповідними для користувачів.
Для того, щоб сайт зайняв гарне місце в результатах пошуку сторінки, пошукова машина повинна безперешкодно і вірно сканувати та індексувати цей сайт. Багато пошуковики створюють спеціальні довідкові сервіси для вебмайстрів можуть допомогти уникнути поширених помилок і підвищити рейтинг сайту.
Пошуковики в Росії і в світі
За даними різних дослідницьких груп, можна зробити наступні цікаві висновки про співвідношення сил коштів пошуку на ринку:
привіт від Яндекса з нульових