Як працюють механізми пошуку - студопедія

Характеристики- параметри пошуку і пошукової системи

Пошукові інструменти другого типу називають автоматичними індексами.

Саме такий автоматично збирає індекс і лежить в основі пошукових систем - автоматичних індексів. Пошук за ключовими словами в такій базі даних, що займає максимум кілька секунд, приносить ті ж результати, що і обшаривания всіх WWW-сторінок у всьому Інтернеті

Автоматичний індекс складається з трьох частин: програми-робота. збирається цим роботом бази даних - індексу і інтерфейсу користувача для пошуку в цій базі. Всі ці компоненти цілком можуть функціонувати автоматично, без втручання людини, звідси назва.

Пошук за ключовими словами вимагає звуження зони пошуку

Автоматичних індексів WWW-сторінок існує чимало: WebCrawler, Lycos, Excite, Inktomi, Open Text і інші. Наприклад, Lycos є предметного каталогу і автоматичного індексу. Alta Vista. хоча і не виходить за рамки традиційної структури "робот - база даних - інтерфейс пошуку", є одним з найпотужніших інструментів цього роду.

Подібний принцип дії має і система Archie. призначена для пошуку файлів на анонімних FTP-вузлах. Archie з'явився набагато раніше, ніж програми-роботи, які подорожують по WWW (так само як протокол FTP з'явився набагато раніше WWW), тому система Archie не має одного власника, а її сервери розкидані по всьому світу.

Основні - Релевантність і пертінентние.

Релевантність (лат. Relevo - піднімати, полегшувати) в інформаційному пошуку - семантичне відповідність пошукового запиту і пошукового образу документа.

Пертінентность (лат. Pertineo - торкаюся, ставлюся) - відповідність знайдених інформаційно-пошуковою системою документів інформаційним потребам користувача. Інакше кажучи, це співвідношення обсягу корисної інформації до загального обсягу отриманої інформації.

Якщо з десяти знайдених документів 8 відповідають запиту, але тільки 5 затребувані користувачем, то в результаті пошуку 8 релевантних документів і 5 пертінентних.

Пошукові Системи зазвичай складаються з трьох компонентів:

агент (павук або кроулер), що переміщується по Мережі і збирає інформацію;
база даних, яка містить всю інформацію, яка збирається павуками;
пошуковий механізм, який люди використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку (пошукові механізми) типу агентів павуків, кроулеров і роботів використовуються для збору інформації про документи, які перебувають в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як cобірать документи.

Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів в кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі.

Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати.

Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.

База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжування, однак основні принципи визначення релевантності наступні:

Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
Теги, в яких ці слова розташовуються.
Місцезнаходження шуканих слів у документі.
Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документа.

Ці принципи застосовуються всіма пошуковими системами. А представлені нижче використовуються деякими, але достатньо відомими (на кшталт AltaVista, HotBot).

Час - як довго сторінка знаходиться в бази пошукового серверу. Спочатку здається, що це досить безглуздий принцип. Але, якщо задуматися, як багато існує в Інтернеті сайтів, які живуть максимум місяць! Якщо ж сайт існує досить довго, це означає, що власник вельми досвідчений в даній темі і користувачеві більше підійде сайт, який пару років віщає світу про правила поведінки за столом, ніж той, який з'явився тиждень тому з цією ж темою.
Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошукача.

База даних виводить ранжируваних подібним чином список документів. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять лінки c першими кількома пропозиціями, що містяться в документі або заголовок документа разом з Посилання.

Пошукові сервери (смороду є інформаційнімі системами)