Яндекс »відкрив для всіх catboost (і це не про котиків)
Компанія «Яндекс» представила на прес-конференції в Москві новий метод машинного навчання CatBoost. За словами розробників, вже в період тестування новий метод показав перевагу над застосовуваним в компанії Матрикснет, і поступово замінить його у всіх продуктах
CatBoost став першим опенсорсний методом машинного навчання родом ізУкаіни. У «Яндексі» заявляють, що основне його значення - некомерційне. «Викладаючи бібліотеку CatBoost у відкритий доступ, ми хочемо внести свій вклад в розвиток машинного навчання», - заявив керівник управління машинного інтелекту і досліджень «Яндекса» Михайло Біленко.
Крім застосування в численних проектах «Яндекса» ( «Дзене», «Погоді», «пробки», пошуку та інших), CatBoost повинен знайти застосування в поза - тобто в будь-яких проектах, пов'язаних з машинним навчанням.
Бібліотека машинного навчання CatBoost викладена у відкритий доступ на GitHub по відкритій (найбільш відкритою з можливих) ліцензії Apache. Там же можна знайти програму візуалізації CatBoost Viewer.
Як розповіла керівник систем машинного навчання в «Яндексі» Анна Вероніка дорогенька, CatBoost вже був випробуваний Європейським центром ядерних досліджень (Церном). Там він використовується для об'єднання даних, отриманих з різних частин детектора LHCb.
Всередині «Яндекса» новий метод протестували на різних сервісах: він застосовувався для поліпшення результатів пошуку, ранжирування стрічки рекомендацій «Яндекс.Дзен», розрахунку прогнозу погоди в технології «Метеум». У всіх цих випадках CatBoost показав себе краще Матрикснет (цей метод застосовується в поточних продуктах «Яндекса» в даний час).
Як пояснили розробники, відповідаючи на питання TechFusion.ru, надалі CatBoost буде використовуватися і в інших сервісах «Яндекса». Поступово він повинен повністю замінити свого попередника - Матрікcнет.
Як і Матрикснет, CatBoost задіє механізм градієнтного бустінга. який підходить для роботи з різнорідними даними. Але якщо Матрикснет навчає моделі на числових даних, то CatBoost враховує і нечислові, наприклад види хмар або типи будівель. Раніше такі дані доводилося перекладати на мову цифр, що могло змінити їх суть і вплинути на точність роботи моделі. Тепер їх можна використовувати в первісному вигляді, пояснили в «Яндексі». До слова, свою назву новий метод машинного навчання отримав від Categorical Boosting.
Як показали тести. CatBoost дає більш високу якість навчання, ніж інші методи для роботи з різнорідними даними. Його можна застосовувати в самих різних областях: у медицині, фінансовій сфері, промисловості та інших.