Яндекс: CatBoost

Продукт
Разработчики: Яндекс (Yandex)
Дата премьеры системы: 2017/07/18
Технологии: Средства разработки приложений

Содержание

CatBoost - метод машинного обучения.

2025: Попадание в список самых популярных алгоритмов машинного обучения в мире наряду с технологиями Google, Microsoft и Intel

Алгоритм CatBoost, разработанный компанией «Яндекс», вошел в число наиболее востребованных инструментов машинного обучения в мировой фундаментальной и прикладной науке. Этот факт установлен в отчете американского издания MarkTechPost от декабря 2025 года. Его авторы проанализировали 5 тыс. научных публикаций журнала Nature за 2025 год.

По данным пресс-службы «Яндекса», CatBoost является единственной российской технологией, представленной в данном глобальном обзоре. Алгоритм входит в узкую группу из пяти неамериканских разработок, ставших мировым научным стандартом, наряду с французским Scikit-learn, немецким U-Net, канадскими GAN и RNN, а также британским AlphaFold. Согласно отчету, алгоритм «Яндекса» применяется в каждой тридцатой исследовательской работе, конкурируя с решениями таких корпораций, как Google, Microsoft, Intel и Amazon.

Российский алгоритм машинного обучения CatBoost попал в список самых популярных в мире наряду с технологиями Google, Microsoft и Intel

Лидером по цитированию алгоритма в Nature стал Китай с долей в 32% публикаций. Высокий спрос CatBoost в КНР связан с активным развитием исследований на основе машинного обучения, в частности ансамблевых методов. В этих методах для решения одной задачи применяют несколько моделей, включая CatBoost. Эффективность вместо расходов: на чем реально будет держаться ИБ в 2026 году 19.8 т

В США алгоритм «Яндекса» используют наравне с локальными аналогами в ведущих научных центрах, включая Гарвардский и Стэнфордский университеты. В отчете указано, что доля американских публикаций с упоминанием CatBoost составляет 13%, что сопоставимо с показателями его прямых конкурентов: XGBoost (15%), классического Gradient Boosting Model (12%) и LightGBM (10%).

Изначально созданный для поисковых задач, CatBoost сегодня применяется во многих сервисах «Яндекса», таких как «Погода», «Директ», «Маркет» и «Музыка». Как отмечает пресс-служба компании, алгоритм специализируется на анализе табличных данных, выявляя в них сложные закономерности. Его ключевое преимущество — способность работать с категориальными признаками без предварительного преобразования.[1]

2017: Разработка технологии

18 июля 2017 года компания Яндекс сообщила о создании метода машинного обучения CatBoost. Он предназначен для обучения моделей на разнородных данных.

В основу берутся сведения о местонахождении пользователя, история операций и тип устройства. Библиотека машинного обучения CatBoost опубликована в открытом доступе, её могут использовать все желающие.

CatBoost заявлена, как наследник метода машинного обучения Матрикcнет - он применяется почти во всех сервисах Яндекса. Как и Матрикснет, CatBoost использует механизм градиентного бустинга (англ. boosting - улучшение): он подходит для работы с разнородными данными.

CatBoost учитывает модели числовых и нечисловых данных - виды облаков или типы зданий. Прежде эти данные переводились на язык цифр, и это могло поменять их суть, повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде. Это помогает CatBoost демонстрировать повышенное качество обучения. Его можно применять в разных сферах - от банковской до производственной.

«
Яндекс много лет занимается машинным обучением, и CatBoost создавали лучшие специалисты в этой области. Выкладывая библиотеку CatBoost в открытый доступ, мы хотим внести свой вклад в развитие машинного обучения. Надо сказать, что CatBoost — российский метод машинного обучения, который стал доступен в open sourсe. Надеемся, что сообщество специалистов оценит его по достоинству и поможет сделать ещё лучше.

Михаил Биленко, руководитель управления машинного интеллекта и исследований Яндекса
»

Метод протестирован на сервисах Яндекса. В рамках эксперимента он применялся для улучшения результатов поиска, ранжирования ленты рекомендаций Яндекс.Дзен и для расчёта прогноза погоды в технологии Метеум. В дальнейшем CatBoost будет работать и на других сервисах. Его использует команда Yandex Data Factory — в своих решениях для промышленности, в частности для оптимизации расхода сырья и предсказания дефектов. Европейский центр ядерных исследований (ЦЕРН) внедрил CatBoost: центр использует продукт для объединения данных, полученных с разных частей детектора LHCb.

Для работы с CatBoost достаточно установить его на компьютер. Библиотека поддерживает операционные системы Linux, Windows и macOS и доступна на языках программирования Python и R.

Загрузка CatBoost доступна на GitHub.

Робототехника



Примечания



СМ. ТАКЖЕ (9)


Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Солар (Solar) (47)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
  Форсайт (13)
  Unlimited Production (Анлимитед Продакшен, eXpress) (12)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (11)
  Другие (433)

  Солар (Solar) (6)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  РЖД-Технологии (3)
  Robin (Робин) (3)
  Другие (23)

  Unlimited Production (Анлимитед Продакшен, eXpress) (5)
  Солар (Solar) (4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Axiom JDK (Аксиом) (2)
  Наносемантика (Nanosemantics Lab) (1)
  Другие (13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Актив (Актив-софт) (2)
  Нота (Холдинг Т1) (2)
  Effective Technologies (Эффектив Технолоджис) (2)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  Другие (24)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1)
  Уральский центр систем безопасности (УЦСБ) (1)
  Другие (0)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Солар (Solar) (2, 49)
  Microsoft (41, 47)
  Oracle (49, 26)
  Hyperledger (Open Ledger Project) (1, 23)
  IBM (33, 18)
  Другие (666, 359)

  Солар (Solar) (1, 6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
  Мобильные ТелеСистемы (МТС) (1, 4)
  SL Soft (СЛ Софт) (1, 3)
  Другие (15, 24)

  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 5)
  Солар (Solar) (1, 4)
  Мобильные ТелеСистемы (МТС) (2, 3)
  Axiom JDK (Аксиом) (2, 2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Другие (13, 13)

  Мобильные ТелеСистемы (МТС) (1, 4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
  Python Software Foundation (1, 3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
  Яндекс (Yandex) (1, 3)
  Другие (19, 25)

  Мобильные ТелеСистемы (МТС) (1, 1)
  Уральский центр систем безопасности (УЦСБ) (1, 1)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Solar appScreener (ранее Solar inCode) - 49
  Hyperledger Fabric - 23
  Windows Azure - 20
  EXpress Защищенный корпоративный мессенджер - 16
  FIS Platform - 16
  Другие 364

  Solar appScreener (ранее Solar inCode) - 6
  EXpress Защищенный корпоративный мессенджер - 6
  МТС Exolve - 4
  Форсайт. Мобильная платформа (ранее HyperHive) - 3
  РЖД и Робин: Облачная фабрика программных роботов - 3
  Другие 14

  EXpress Защищенный корпоративный мессенджер - 5
  Solar appScreener (ранее Solar inCode) - 4
  МТС Exolve - 2
  Axiom JDK (ранее Liberica JDK до 2022) - 2
  МТС: Ocean Облачная платформа - 1
  Другие 13

  МТС Exolve - 4
  Python - 3
  Yandex AI Studio - 3
  EXpress Защищенный корпоративный мессенджер - 3
  Guardant SLK - 2
  Другие 18

  УЦСБ: Apsafe Облачная платформа для непрерывного анализа защищенности приложений - 1
  МТС Exolve - 1
  Другие 0