Фільтрація контенту і тематичний пошук - іван Бегтін
Давно Зревшее у міркування, а зараз ще і підштовхнути ситуацією, перепрошую за непристойне слово, зі «шкільним порталом».
Питання в тому як правильно забезпечити контентную фільтрацію, при цьому забезпечивши достатній обсяг інформації.
Технології та продукти створення пошуку по білим списками:
Для того ж «шкільного пошуку» могла б використовуватися будь-яка з цих технологій з рівним успіхом і відносно невеликими витратами.
2. Блокування пошуку за ключовими словами / фразами.
Класичний метод який використовують, ті ж edu.gogo.ru, school.yandex.ru і google.com в режимі максимальної фільтрації.
Складається список ключових слів найбільш часто використовуваних для отримання дорослого і непристойного контенту. При виявленні що користувач використовує дане ключове слово або фразу, результати пошуку виводяться і або видається порожня сторінка результатів, або попередження від фільтра. Тут є свої забавності бо українська мова вельми двозначно і одні і ті ж слова в різних контекстах можуть бути як матюками так і цілком пристойними.
Саме на цьому принципі працює відомий шкільний пошук через edu.gogo.ru з відомими результатами і в сімейному пошуку Яндекса (family.yandex.ru) з лише трохи кращими результатами.
Ще одна з проблем блокування за ключовими словами в тому що їх тисячі і навіть прості експерименти на кшталт тих що я привів вище, дозволяють їх обійти. Не кажучи вже про те що багато хто використовує сленг в результаті підтримку активного блокувального списку вимагає, або операторів, або «соціалізації» із залученням активних відвідувачів до підбору подібних слів.
3. Блокування індексування за ключовими на сторінці
Подібний механізм фільтрації використовується в Google і Yahoo де можна використовувати Safe Search, але, наприклад, не використовується в Яндексі.
4. Блокування по призначених для користувача мітках
5. Ноу-хау розпізнавання зображень
6. Ручна чистка індексів і ключових фраз
Кажуть що висока релевантність Google визначається не тільки алгоритмами, але і наявністю безлічі операторів які постійно вичищають з індексів спам. Проблема тут у вартості таких робіт і в її обсягах враховуючи мільярди індексованих документів.
Як резюме. Я вважаю що варто рознести два поняття «захищений пошук» і «фільтрується пошук».
Захищений пошук - це блокування дорослого контенту на 99%
Фільтрується пошук - часткова і негарантована блокування контенту.
Так ось побудови захищений пошук можна тільки при роботі по білому списку і ніяк інакше. Всі інші алгоритми блокування можуть лише поліпшити якість поточної пошукової видачі.
Крім того фільтрацію контента можна поліпшити в такий спосіб:
1. соціалізуватися добірки ключових слів для внесення в блок-лист. Можна хоч в вигляді окремої соц. мережі, можна прямо в інтерфейсі пошукача. Плюси є у обох підходів. У разі соц. мережі можливе створення спільного списку блокованих слів, а різні пошуковики можуть поповнювати свої внутрішні блок-листи з нього, а також простіше модерація і голосування. У разі ж інтерфейсу пошуковика - внести блоковане слово може кожен його користувач, але модерацію доведеться проводити вже оператором пошукача.
2. Ввівши можливості установки користувальницьких міток в зв'язаному з пошуком сервісами.