Реферат пошукові системи
1. Введення
2. Пошукові системи
Пошукові Системи зазвичай складаються з трьох компонентів:
- агент (павук або кроулер), який переміщається по Мережі і збирає інформацію;
- база даних, яка містить всю інформацію, яка збирається павуками;
- пошуковий механізм, який люди використовують як інтерфейс для взаємодії з базою даних.
2.1. Як працюють механізми пошуку
Засоби пошуку та структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують. Засоби пошуку типу агентів, павуків, кроулеров і роботів використовуються для збору інформації про документи, які перебувають в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як cобірать документи. Деякі йдуть за кожним посиланням на кожного знайденого сторінці і потім, в свою чергу, досліджують кожну посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічним і звуковим файлам, файлам мультиплікації; інші ігнорують лінки до ресурсів типу баз даних WAIS; інші проінструктірова-ни, що потрібно переглядати насамперед найбільш популярні сторінки.
Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів в кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.
Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжування, однак основні принципи визначення релевантності наступні:
1. Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
2. Теги, в яких ці слова розташовуються.
3. Місцезнаходження шуканих слів у документі.
4. Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документа.
База даних виводить ранжируваних подібним чином список документів з HTML і повертає його людині, яка зробила запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять лінки c першими кількома пропозиціями, що містяться в документі або заголовок документа разом з Посилання.
Коли Ви натискаєте на засланні до одного з документів, який вас цікавить, цей документ запитується у того сервера, на якому він знаходиться.
2.2 Порівняльний огляд пошукових систем
2.2.1 Пошукова система Рамблер
Пошукова система містить інформацію про більш ніж 12 мільйонах документів, розташованих на серверахУкаіни і країн СНД. Рамблер обробляє щодоби не менше 500 тисяч пошукових запитів (в середньому - 5 запитів в секунду), скануючи 48 тисяч web-серверів і використовуючи кілька одночасно працюючих програм-роботів.
Запит може складатися з одного або декількох слів, розділених пробілами. Можуть бути використані як українські, так і англійські слова і словосполучення. За замовчуванням знаходяться тільки ті документи, в яких зустрілися всі введені Вами слова. Щоб знайти документи, що містять хоча б одне слово із запиту, використовуйте логічний зв'язку Or (див. Нижче) або виберіть на сторінці детального запиту: "Слова запиту: будь-". Щоб виключити документи, що містять ті чи інші слова, вкажіть на сторінці детального запиту: "Виключити документи, що містять такі слова.".
Все одно, з якої літери написані слова запиту: з великої чи з маленької. І при побудові індексу, і при пошуку за запитом усі великі (великі) букви "знижуються".
Слова запиту можуть бути з'єднані логічними зв'язками And ( "і"), Or ( "або"). Замість зв'язок (або в поєднанні з ними) можуть використовуватися також символи '', '|'.
Частини запиту можуть бути згруповані за допомогою круглих дужок (). Можлива багаторазова вкладеність дужок в поєднанні з логічними операторами.
Рамблер вміє шукати слова у всіх формах (наприклад, амінокислота, амінокислоти, амінокислотою і т. Д.). Щоб слово знаходилося у всіх формах, перед ним треба поставити службовий символ '#'. У меню детального запиту такий режим може бути включений для всіх слів: "Розширення запиту: всі форми слів". Службовий символ '@' перед словом дозволяє знаходити не тільки саме це слово, але і однокореневі слова. У меню детального запиту символу '@' відповідає режим "Розширення запиту: всі однокореневі".
За замовчуванням наша система шукає слова запиту так, як Ви їх ввели, щоб зменшити "шум" в знайдених документах. Якщо Ви не пам'ятаєте, як пишеться слово, чи хочете розширити запит, можна використовувати метасимволи '*' і '?' для позначення довільній частині слова і довільного символу.
Пошук в частині документа
Обмежити пошук частинами документів, такими як назва документа, його заголовок, URL і т.п. можна через меню детального запиту "Шукати в.".
Можна обмежити пошук документами тільки російською або тільки на англійській мові. Для цього треба вибрати відповідний режим в меню детального запиту "Мова документа.". За замовчуванням пошук виконується за документами на всіх мовах.
За замовчуванням знайдені документи сортуються за релевантністю (відповідності запиту). Однак Ви можете зажадати, щоб замість цього в початок списку були поміщені найсвіжіші (або, навпаки, найстаріші документи). Для цього треба вибрати відповідну установку в меню "Сортувати по." На сторінці детального запиту.
Ви можете також обмежити пошук документами, створеними в певний період часу: для цього необхідно на сторінці детального запиту вказати "Від дати. До дати.".
Відстань між словами
Можна вимагати, щоб Рамблер повертав тільки ті документи, де слова із запиту знаходяться на мінімальній відстані один від одного. Режим "Обмежити відстань між словами" може бути включений в детальному запиті. Всі перераховані вище правила можуть бути використані спільно один з одним в необхідної Вам послідовності.
За замовчуванням результати пошуку видаються порціями по 15 документів. Меню "Видавати по." На сторінці детального запиту дозволяє збільшити це число до 30 або 50. Меню "Форма виведення." Дозволяє отримувати опису документів зі збільшеною або зменшеною подробицею.
2.2.2. Пошукова система Яндекс
Яндекс щодня переглядає сотні тисяч Web-сторінок в пошуках змін або нових посилань. Колекція посилань постійно зростає.
Незалежно від того, в якій формі ви вжили слово в запиті, пошук враховує всі його форми за правилами української мови. Наприклад, якщо задано запит "йти", то в результаті пошуку будуть знайдені посилання на документи, що містять слова "йти", 'йде', 'йшов', 'йшла' і т.д. На запит 'вікно' буде видана інформація, що містить і слово 'вікон', а на запит 'відкликали' - документи, що містять слово 'відкликали'.
При цьому пошук не обмежений лише словами чи фразами. Яндекс відшукає за назвою web-сторінку компанії або файл з потрібною картинкою.
2.2.3. Пошукова система Апорт
Приклади простих запитів
Зазвичай запит вдає із себе просто одне або кілька слів, наприклад:
мікропроцесори компанії Intel
За таким запитом знаходяться документи, в яких зустрічаються всі слова запиту. Є, правда, обмежене число слів (сполучники, прийменники тощо), які в запиті ігноруються, так як не несуть самі по собі смислового навантаження. Наприклад, за запитом:
яблука на снігу
будуть знайдені всі документи, в яких зустрічаються одночасно два слова: "яблуко" і "сніг". Де в межах документа розташовані слова, в якій граматичній формі вони знаходяться - не важливо
Варто ще раз підкреслити важливе і дуже корисна властивість Апорт: незалежно від того, в якій граматичній формі ви пишете в запиті слово, воно знаходиться в документах у всіх своїх формах. Наприклад, за запитом:
будуть знайдені серед інших і документи, що містять текст "люди йдуть". Розпізнавання всіх форм працює для звичайних слів української мови. Для екзотичних слів, неологізмів тощо воно не проходить. В цьому випадку може стати в нагоді оператор "*" (зірочка). Наприклад, ви хочете знайти все, що стосується діяльності презідентаУкаіни, в тому числі і документи, що містять слово "єльцинізму". Скористайтеся запитом:
Він дозволить вам знайти те, що ви хочете (а також документи зі словами Ельцініще. Ельцінци. Ельціненок тощо), оскільки зірочка замінює собою будь-яке число будь-яких букв
Ви можете шукати документи не тільки по всьому російськомовному Інтернету, але і по його частині. Найпростіший випадок - пошук по певному серверу. наприклад
За даним запитом будуть знайдені всі документи на сервері www.intel.ru, що містять слово "собака". Можливо, вам цікаво, а що буде, якщо написати просто:
В цьому випадку ви отримаєте список всіх документів, розташованих на зазначеному вами сервері
Ви можете обмежувати пошук і сильніше - одним з каталогів сервера. наприклад:
За даним запитом документи, що містять слово "сенбернар", будуть шукатися тільки в каталозі / sobaki (і його підкаталогах) московського сервера корпорації Intel.
2.2.5. Пошукова сістемаAltaVista
Індексування в цій системі здійснюється за допомогою робота. При цьому робот має такі пріоритети:
Якщо тегів на сторінці немає, використовує перші 30 слів, які індексує і показує замість опису (tag description)
3.Прімери запитів
В системі Апорт було зроблено запит «вакуум-випарний кристаллизатор» Система повідомила наступні результати (перші три):
Тамбовський державний технічний університет
Про університеті - історія; список факультетів, спеціальностей; персоналії провідних вчених та ін. Розповідь про Коростеньський регіональному центрі інформатизації вищої школи: статут, перспективні проекти, результати. Про Коростень та області: історія, культура, посилання на сторінки освітніх установ, туризм.
Схожі сайти 36 0000
Решта знайдені на сайті сторінки (1)
Інститут тепло- і масообміну ім. А.В. Ликова АН Білорусі
Інформація про інститут і його лабораторіях. Новини та події. Анонси проведених конференцій і семінарів. Матеріали "Інженерно-фізичного журналу".
Схожі сайти IFZh, 1984
Бодров В. В. Визначення теплових параметрів тонкостінних кристалізаторів барабанного типу. 622 Новиков Н. П. Ігнатенко К. І. Михайлова Г. домішки в кремнії n типу при високотемпературному нагріванні в вакуумі. 693 Булгак І. А. Скоропанов А. С. Вечір А. А. Проценко Г.
А. А. Ефективність гетерування при масопереносу в вакуумі. 949 Агеенко І. С. Ільясов С. Г. Красніков В. В. Тюрев Е.
Решта знайдені на сайті сторінки (1)
WWW server of Tambov state technical university
Решта знайдені на сайті сторінки (1)
В системі Яндекс був зроблений то т же запит, система відповіла, що нічого не знайдено.
3. Список використаної літератури
Спасибі, виручили! Зроби паузу, студент, ось розважся: Найреальніший шкоду від куріння - це коли виходиш покурити, а сусіди по гуртожитку зжерли твої пельмені. До речі, анекдот узятий з chatanekdotov.ru