Як працює пошукова система google, алгоритми пошуку 2018
Сервіси, які використовуються вами для пошуку, на кшталт Google, Yahoo і Bing, називаються пошуковими системами. Сама назва передбачає, що запит інформації здійснюється по величезній базі (індексу) веб-сторінок. Завдяки цьому, можна знайти все, що містить слова, які ви шукаєте. 20 років тому пошукові системи дійсно працювали таким чином. Сторінки поступово "осідають" в індекс, що робить контент веб-сторінки доступним для пошуку тексту.
У міру розростання Мережі, зараз при пошуку дуже часто можна знайти слово або фразу, відповідно, на все більшій кількості сторінок. Люди не дуже люблять прокручувати величезні списки з результатами вручну, щоб знайти шукані сторінки, які найкращим чином відповідають потребам. Так, пошук за словом "door" (двері) в англомовному Google, наприклад, дає понад 1,9 мільярда результатів. Непрактично - навіть неможливо - подивитися всі результати, щоб знайти найбільш релевантні сторінки.
Значення PageRank працювали настільки добре, що вони повністю змінили спосіб взаємодії користувачів з результатами пошуку. Оскільки PageRank пропонує найбільш значущі результати у верхній частині сторінки, користувачі стали звертати менше уваги на все, що нижче. Сторінки, які не відображаються на сторінці результатів, по суті, стали "невидимим": користувачі перестали відвідувати їх.
Заради інтересу, спробуйте познайомитися з "невидимим Інтернетом": зайдіть в Google і спробувати заглянути далі, ніж перша сторінка результатів пошуку. Мала частина користувачів коли-небудь були за межами першої сторінки, і Google навіть не спромігся відображати всі 1,9 млрд результатів пошуку за запитом "door". Замість цього, список зупиняється на сторінці 63.
Видавці та комерційні сайти, конкуруючі за потрапляння в топ результатів пошуку, породили новий бізнес: пошукову оптимізацію (або SEO). Існує багато різних методів SEO, але основна мета гри полягає в тому, щоб алгоритм PageRank працював в вашу користь за рахунок збільшення числа вхідних посилань на потрібну сторінку і тюнінгу якірного тексту. З сайтів, що конкурують для відвідувачів - і мільярдами доходів на кону - PageRank в результаті програв цю "гонку озброєнь". Сьогодні якірний текст посилань не визначає найбільш значущі результати і, як наслідок, важливість значення PageRank різко скоротилося.
Пошукові системи постійно йшли в сторону машинного навчання для ранжирування результатів. Щорічно, використовується 1,2 трильйона пошукових запитів в Google - це близько 3 мільярдів доларів в день і 40 000 на секунду. Кожен пошуковий запит стає частиною величезного потоку запитів, і пошуковик одночасно "бачить" все те, що мільярди людей шукають по всьому світу. Для кожного введення запиту пропонується широкий спектр результатів і Google пам'ятає, який з них вважається найбільш актуальним. Потім пошуковик використовує минулі результати пошуку, щоб дізнатися те, що найбільш актуально для "середнього" користувача, щоб забезпечити найбільш релевантні результати в подальшому.
Пошукові системи можуть задовольнити 90% або близько того запитів, використовуючи попередні умови пошуку і результати. Пошукова система більше не шукає в інтернеті, в більшості випадків. Замість пошуку результатів в індексі більш кращий результат попередніх користувачів.
Цей зсув з PageRank до машинного навчання також змінив роль в процесах. Без ваших пошуків і вашої вибірки результатів відповідно - пошукач не зміг би навчитися і забезпечити майбутнє результати для інших користувачів. Кожен раз, коли ви використовуєте пошуковик, система використовує вас для ранжирування результатів, причому в масовому масштабі. Це робить вас найціннішим активом.
Андреас Гал (Andreas Gal) - головний директор за технологіями в Mozilla. Він відомий своєю участю в декількох проектах з відкритим вихідним кодом.