механізми пошуку
Пошукові системи зазвичай складаються з трьох компонентів:
· Агент (павук або Гроулер), який переміщається по Мережі і збирає інформацію;
-база даних, яка містить всю інформацію, яка збирається павуками;
-пошуковий механізм, який люди використовують як інтерфейс для взаємодії з базою даних.
Засоби пошуку та структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують.
Засоби пошуку типу агентів, павуків, Гроулер і роботів використовуються для збору інформації про документи, які перебувають в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних.
Кожен пошуковий механізм має власний набір правил, що визначають, як збирати документи. Деякі йдуть за кожним посиланням на кожного знайденого сторінці і потім, в свою чергу, досліджують кожну посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічним і звуковим файлам, файлам мультиплікації; інші ігнорують посилання до ресурсів типу баз даних WAIS; інші проінструктованих, що потрібно переглядати насамперед найбільш популярні сторінки.
Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів в кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Internet і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.
Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і витягають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.
Гроулер переглядають заголовки і повертають тільки перше посилання.
Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли хто-небудь хоче знайти інформацію, доступну в INTERNET, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних.
Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжування, однак, основні принципи визначення релевантності наступні:
1. Кількість слів запиту в текстовому вмісті документу.
2. Теги, в яких ці слова розташовуються.
3. Місцезнаходження шуканих слів у документі.
4. Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документа.
База даних виводить ранжируваних подібним чином список документів з HTML і повертає його людині, яка зробила запит.
Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять посилання c першими кількома пропозиціями, що містяться в документі або заголовок документа разом з Посилання.
Коли Ви натискаєте на засланні до одного з документів, який вас цікавить, цей документ запитується у того сервера, на якому він знаходиться.