Яндекс »відкрив для всіх catboost (і це не про котиків)

Компанія «Яндекс» представила на прес-конференції в Москві новий метод машинного навчання CatBoost. За словами розробників, вже в період тестування новий метод показав перевагу над застосовуваним в компанії Матрикснет, і поступово замінить його у всіх продуктах

CatBoost став першим опенсорсний методом машинного навчання родом ізУкаіни. У «Яндексі» заявляють, що основне його значення - некомерційне. «Викладаючи бібліотеку CatBoost у відкритий доступ, ми хочемо внести свій вклад в розвиток машинного навчання», - заявив керівник управління машинного інтелекту і досліджень «Яндекса» Михайло Біленко.

Крім застосування в численних проектах «Яндекса» ( «Дзене», «Погоді», «пробки», пошуку та інших), CatBoost повинен знайти застосування в поза - тобто в будь-яких проектах, пов'язаних з машинним навчанням.

Бібліотека машинного навчання CatBoost викладена у відкритий доступ на GitHub по відкритій (найбільш відкритою з можливих) ліцензії Apache. Там же можна знайти програму візуалізації CatBoost Viewer.

Як розповіла керівник систем машинного навчання в «Яндексі» Анна Вероніка дорогенька, CatBoost вже був випробуваний Європейським центром ядерних досліджень (Церном). Там він використовується для об'єднання даних, отриманих з різних частин детектора LHCb.

Всередині «Яндекса» новий метод протестували на різних сервісах: він застосовувався для поліпшення результатів пошуку, ранжирування стрічки рекомендацій «Яндекс.Дзен», розрахунку прогнозу погоди в технології «Метеум». У всіх цих випадках CatBoost показав себе краще Матрикснет (цей метод застосовується в поточних продуктах «Яндекса» в даний час).

Як пояснили розробники, відповідаючи на питання TechFusion.ru, надалі CatBoost буде використовуватися і в інших сервісах «Яндекса». Поступово він повинен повністю замінити свого попередника - Матрікcнет.

Як і Матрикснет, CatBoost задіє механізм градієнтного бустінга. який підходить для роботи з різнорідними даними. Але якщо Матрикснет навчає моделі на числових даних, то CatBoost враховує і нечислові, наприклад види хмар або типи будівель. Раніше такі дані доводилося перекладати на мову цифр, що могло змінити їх суть і вплинути на точність роботи моделі. Тепер їх можна використовувати в первісному вигляді, пояснили в «Яндексі». До слова, свою назву новий метод машинного навчання отримав від Categorical Boosting.

Як показали тести. CatBoost дає більш високу якість навчання, ніж інші методи для роботи з різнорідними даними. Його можна застосовувати в самих різних областях: у медицині, фінансовій сфері, промисловості та інших.