Як влаштовані пошукові системи, creative way projects
- Пошук інформації та пошукові машини
- Як працює пошукова машина
- Як влаштований індекс пошуків
- Деякі важливі питання
- Якість пошукової машини
- Яка пошукова машина краще
- висновки
Більшість користувачів тільки в загальних рисах уявляють собі, як працює пошукова машина. Тому в цьому розділі ми розглядаємо основні поняття і пристрій пошукових систем (вони ж пошукові машини, або пошуковики). Якщо ви добре знаєте, що таке індекс і пошуковий запит, можете сміливо пропустити цей розділ.
Головний елемент структури сучасного Інтернету - це пошукові машини, або пошуковики. Різних пошукових систем дуже багато, але серед них є головні, найбільш відомі і відвідувані. У світовому Інтернеті зараз домінує Google (вимовляється як гугл). в українському ж, а точніше, в російськомовному Інтернеті (Рунеті), найбільш популярний пошуковик - Яндекс. У два рази (за кількістю пошукових запитів в день) від Яндекса відстає Рамблер, потім слід «український» Google, потім, зовсім далеко від лідерів, слід Апорт.
Чому саме пошуковики зайняли в Інтернеті найважливіше місце?
Тому що вони впорядковують хаос. Адже сайти і їх сторінки «розкидані в Інтернеті без будь-якого порядку, без першої або останньої сторінки, без способу переходу до наступної сторінки. «Читати» Інтернет поспіль - неможливо.
Пошук інформації та пошукові машини
За століття, що минули з часу винаходу книг, людство придумало тільки три основних способи пошуку інформації в великій кількості сторінок. І кожен з нас зустрічався з ними ще до свого першого виходу в Інтернет.
В Інтернеті використовуються ці ж способи для пошуку потрібної сторінки, просто вони автоматизовані і виконуються спеціальними програмами. Це - зміст, посилання і предметний покажчик.
Зміст
Перший, найприродніший спосіб пошуку потрібної сторінки - це зміст книги. Новомосковсктель книги переглядає її зміст, знаходить потрібну йому голову, бачить номер потрібної сторінки і відкриває її, перегорнувши книгу до потрібного номера сторінки.
Цьому способу пошуку в Інтернеті відповідають каталоги.
Покажчик, або індекс
Третій, самий цікавий для нас спосіб пошуку потрібної сторінки - це алфавітний список важливих термінів в кінці книги, так званий предметний покажчик, або індекс. Ви напевно зустрічали його в підручниках, а також в наукових і технічних виданнях. Ось як може виглядати фрагмент типового індексу:
Третя космічна швидкість, 255; 294
Туманність, 14; 29; 188
Андромеди, 29; 188
Важкі кварки, 347
В індексі перераховані важливі для даної книги терміни (ключові слова) і номери сторінок, на яких ці терміни зустрічаються. Якщо Новомосковсктель книги не може знайти потрібну сторінку по змісту, він може припустити, які слова можуть зустрічатися на ній, і зазирнути в індекс.
Ось саме ця ідея пошуку потрібної сторінки за ключовими словами в індексі і стала основною ідеєю, на якій створені інтернет-пошуковики. Природно, складання і використання пошукового індексу в Інтернеті автоматизовані.
Фактично, коли користувач вводить пошуковий запит в пошукову машину, він звертається до предметного покажчику Інтернету, або індексу, - списку всіх ключових слів Інтернету із зазначенням сторінок, на яких вони зустрічаються.
Яким же чином складається і працює цей індекс Інтернету?
Як працює пошукова машина
Пошукова машина - це програма, яка становить і зберігає предметний покажчик Інтернету, а також знаходить в ньому задані ключові слова. Для цього програма складає так званий індекс.
І з яких етапів складається процес складання індексу і пошуку по ньому.
А сторінка, на яку немає взагалі жодного посилання, «своїм ходом» не потрапить в індекс пошукача ніколи, якщо не вживати спеціальних зусиль.
викачування сторінок
Щоб попрацювати з текстом сторінки і скласти з нього індекс, пошуковик повинен отримати цей текст.
Для цього пошуковик повинен викачати цей текст, тобто запросити у сайту задану сторінку. Викачує сторінки спеціальний модуль пошукової машини, званий пошуковим «павуком» (по-англійськи crawler), або пошуковим роботом. Пошуковий робот обходить заданий на попередньому етапі список сторінок, викачує гігантський обсяг сирого текстового матеріалу, зберігає його на дисках своїх комп'ютерів і передає на індексування індексному роботу.
Складання індексу, або індексування
Щоб скласти індекс, індексний робот пошукової машини повинен вибрати всі слова з усіх викачаних текстів і розташувати їх в алфавітному порядку, разом з номерами сторінок і різної службовою інформацією про кожній сторінці.
Для цього індексний робот перебирає всі викачані сторінки, нумерує їх (а як же, адже потрібно якось позначити сторінки, щоб потім знаходити їх), видаляє з тексту сторінок будь-який непотрібний, нетекстовий «сміття» (наприклад, розмітку мови HTML), потім витягує з тексту слова і поміщає їх в індекс. При цьому слова забезпечуються інформацією про сторінки, з яких вони були взяті.
Як саме влаштований індекс, ми докладно розповімо трохи пізніше.
Всі описані попередні кроки непомітні для користувача пошукової машини, вони виконуються в пошуковій машині. А ось сам пошук - це і є те, що бачить користувач. Користувач вводить в пошуковий рядок свій запит (слово або словосполучення), і пошукова машина - о, диво! - видає список посилань на сторінки в Інтернеті.
Як це працює? Коли користувач вводить якесь слово в рядок запиту пошукової системи, пошукова машина звертається до індексу, знаходить запис про заданому слові, витягує всі номери сторінок, які стосуються до заданого слова, і показує користувачеві результати пошуку, тобто список сторінок.
Якщо ж в запиті було кілька слів, то пошукова машина порівнює списки посилань на сторінки для кожного слова і вибирає тільки ті сторінки, номера яких повторюються, тобто зустрічаються в кожному списку сторінок для кожного слова. Таким чином, вибираються тільки ті сторінки, на яких одночасно зустрічаються всі слова запиту.
Звичайно, тут викладена сама суть механізму пошуку за індексом, його основний принцип, а в реальності розробники пошукових систем використовують безліч різноманітних хитрощів (про декілька з них ви дізнаєтеся нижче).
Пошуковик тим краще, чим більше «правильні» сторінки він показує користувачеві у відповідь на запит. «Правильні» сторінки називаються релеван тнимі (тобто відносяться до справи, доречними).
Щоб розуміти, як пошуковику вдається знаходити найбільш релевантні сторінки, потрібно розібратися в тому, як влаштований індекс пошукової машини.
HTML (HyperTextMarkupLanguage-- мова гіпертекстової розмітки) - набір спеціальних команд для оформлення відображається на веб-сторінці інформації: тексту, зображень, таблиць, форм і т.д.