Дослідження прямого ефіру яндекса чи є сенс парсити і що він в себе включає

Дослідження прямого ефіру яндекса чи є сенс парсити і що він в себе включає

З метою експерименту, був написаний багато-парсер і залишений на тиждень працювати на самоті. Через тиждень було виявлено 414 Гб інформації і 4 460 619 547 на сервері. Радісно потираючи ручки, фахівці приступили до видалення дублів з масиву фраз. І яке ж було їх здивування, коли після видалення дублів в масиві залишилося всього лише 15 068 199 унікальних фраз - воістину несуттєве кількість, у порівнянні з початковим об'ємом.

Таким чином, можна зробити висновок про те, що на практиці парсинг прямого ефіру не дає статистично значущих результатів - за тиждень було отримано 8 млн фраз, за ​​рік вийде в кращому випадку 300-350 млн, що зовсім не є істотним обсягом з точки зору сучасного ринку баз ключових запитів.

Давайте докладніше розглянемо, що ж було отримано в результаті недільного парсинга.

  • кількість потоків парсинга - 10
  • швидкість отримання ключових слів - близько 10 тис в секунду
  • запис вівся в 70 текстових файлів файлів (7 днів по 10 потоків):

Дослідження прямого ефіру яндекса чи є сенс парсити і що він в себе включає

  • розмір файлів від 1.6 гб до 8.8 гб
  • кількість ключових фраз, отриманих за час парсинга - 4 460 619 547
  • кількість ключових фраз після видалення дублів - 15 068 199

Найбільш частотними словами вибірки, за винятком спілок і прийменників стали (вказана частота вживання, раз):

Сам по собі прямий ефір також видає показник found - судячи з усього, це кількість знайдених результатів в пошуковій видачі по даному запиту. Оптимізатори, зацікавлені в отриманні даного параметра, можуть скористатися прямим ефіром - на відміну від звичайної видачі, тут немає капчі і парсинг виходить фактично безкоштовним.