Пошукові системи мережі інтернет
Засоби пошуку та структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують. Засоби пошуку типу агентів, павуків, кроулеров і роботів використовуються для збору інформації про документи, які перебувають в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як cобірать документи. Деякі йдуть за кожним посиланням на кожного знайденого сторінці і потім, в свою чергу, досліджують кожну посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічним і звуковим файлам, файлам мультиплікації; інші ігнорують лінки до ресурсів типу баз даних WAIS; інші проінструктірова-ни, що потрібно переглядати насамперед найбільш популярні сторінки.
Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і витягають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму. Кроулери переглядають заголовки і повертають тільки перше посилання.

Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів в кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.
Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжування, однак основні принципи визначення релевантності наступні:- Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
- Теги, в яких ці слова розташовуються.
- Місцезнаходження шуканих слів у документі.
- Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документа.
База даних виводить ранжируваних подібним чином список документів з HTML і повертає його людині, яка зробила запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять лінки c першими кількома пропозиціями, що містяться в документі або заголовок документа разом з Посилання.
Коли Ви натискаєте на засланні до одного з документів, який вас цікавить, цей документ запитується у того сервера, на якому він знаходиться.