Фільтрація контенту і тематичний пошук - іван Бегтін

Давно Зревшее у міркування, а зараз ще і підштовхнути ситуацією, перепрошую за непристойне слово, зі «шкільним порталом».

Питання в тому як правильно забезпечити контентную фільтрацію, при цьому забезпечивши достатній обсяг інформації.

Технології та продукти створення пошуку по білим списками:

Для того ж «шкільного пошуку» могла б використовуватися будь-яка з цих технологій з рівним успіхом і відносно невеликими витратами.

2. Блокування пошуку за ключовими словами / фразами.

Класичний метод який використовують, ті ж edu.gogo.ru, school.yandex.ru і google.com в режимі максимальної фільтрації.

Складається список ключових слів найбільш часто використовуваних для отримання дорослого і непристойного контенту. При виявленні що користувач використовує дане ключове слово або фразу, результати пошуку виводяться і або видається порожня сторінка результатів, або попередження від фільтра. Тут є свої забавності бо українська мова вельми двозначно і одні і ті ж слова в різних контекстах можуть бути як матюками так і цілком пристойними.

Саме на цьому принципі працює відомий шкільний пошук через edu.gogo.ru з відомими результатами і в сімейному пошуку Яндекса (family.yandex.ru) з лише трохи кращими результатами.

Ще одна з проблем блокування за ключовими словами в тому що їх тисячі і навіть прості експерименти на кшталт тих що я привів вище, дозволяють їх обійти. Не кажучи вже про те що багато хто використовує сленг в результаті підтримку активного блокувального списку вимагає, або операторів, або «соціалізації» із залученням активних відвідувачів до підбору подібних слів.

3. Блокування індексування за ключовими на сторінці

Подібний механізм фільтрації використовується в Google і Yahoo де можна використовувати Safe Search, але, наприклад, не використовується в Яндексі.

4. Блокування по призначених для користувача мітках

5. Ноу-хау розпізнавання зображень

6. Ручна чистка індексів і ключових фраз

Кажуть що висока релевантність Google визначається не тільки алгоритмами, але і наявністю безлічі операторів які постійно вичищають з індексів спам. Проблема тут у вартості таких робіт і в її обсягах враховуючи мільярди індексованих документів.

Як резюме. Я вважаю що варто рознести два поняття «захищений пошук» і «фільтрується пошук».

Захищений пошук - це блокування дорослого контенту на 99%

Фільтрується пошук - часткова і негарантована блокування контенту.

Так ось побудови захищений пошук можна тільки при роботі по білому списку і ніяк інакше. Всі інші алгоритми блокування можуть лише поліпшити якість поточної пошукової видачі.

Крім того фільтрацію контента можна поліпшити в такий спосіб:

1. соціалізуватися добірки ключових слів для внесення в блок-лист. Можна хоч в вигляді окремої соц. мережі, можна прямо в інтерфейсі пошукача. Плюси є у обох підходів. У разі соц. мережі можливе створення спільного списку блокованих слів, а різні пошуковики можуть поповнювати свої внутрішні блок-листи з нього, а також простіше модерація і голосування. У разі ж інтерфейсу пошуковика - внести блоковане слово може кожен його користувач, але модерацію доведеться проводити вже оператором пошукача.

2. Ввівши можливості установки користувальницьких міток в зв'язаному з пошуком сервісами.