#CatBoost

2026-03-08

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

habr.com/ru/articles/1007870/

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

2026-03-05

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

habr.com/ru/companies/X5Tech/a

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

2025-12-16

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

habr.com/ru/companies/kozhinde

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

2025-11-25

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

habr.com/ru/companies/kozhinde

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

2025-11-21

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

habr.com/ru/companies/yandex_c

#firewall #security #highload #c++ #catboost #ml

2025-11-11

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

2025-10-10

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

habr.com/ru/companies/kozhinde

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

2025-09-25

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

habr.com/ru/companies/kryptoni

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

Ilya Khodov Labfluid_state_NMR
2025-08-29

New pre-proof in Journal of Molecular Liquids: ML predicts NMR chemical shifts for metal complexes (45Sc, 49Ti, 89Y, 91Zr, 139La). CatBoost+RDKit ≈7% RMSE for Sc/Y/La; 9% Ti; 13% Zr. SHAP highlights cyclic motifs & electrostatics. Read: doi.org/10.1016/j.molliq.2025.

2025-08-21

Shap-графики: как наглядно объяснить заказчику логику работы модели

Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ. В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях.

habr.com/ru/companies/vtb/arti

#shap #machine_learning #catboost #data_science #python #моделирование

2025-08-10

Prediction of speed of sound of deep eutectic solvents using artificial neural network coupled with group contribution approach

In the previous section the ANN and ML methodologies for the prediction of the speed of sound of…
#NewsBeep #News #Headlines #ArtificialIntelligence #CatBoost #Chemicalengineering #Deepeutectic #Groupcontribution #HumanitiesandSocialSciences #Latvia #LV #machinelearning #multidisciplinary #Neuralnetwork #Science #Speedofsound
newsbeep.com/51168/

2025-08-08

Titanic + CatBoost (Первое решение, первый Jupyter Notebook)

Решение первого соревнования на kaggle титаник с помощью библиотеки от яндекса catboost. Два способа: обычная модель и второй: с перебором гиперпараметров с помощью randomizedsearch. Сравнение результатов.

habr.com/ru/articles/935540/

#kaggle #titanic #ml #машинноеобучение #machinelearning #scikitlearn #catboost #eda #соревнование #juniorml

2025-07-10

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: — Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. — Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. — Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей. В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

habr.com/ru/companies/yandex/a

#поиск #mlops #ml_design #bm25 #DSSM #catboost #яндекславка #machinelearning

Kevin Brown-Silvakevin@brown-silva.social
2025-05-16

Looking for open spaces at #PyConUS? Here are the ones starting at 3:00 PM:

Room 308: Data Engineering Meetup
Room 309: #Python for Science & Research
Room 316: @gnuradio / Ham Radio
Room 318: Tabular ML (@sklearn, #XGBoost, #CatBoost, & friends)
Room 320: Pythonic Music: MIDI, Synthesis and more

us.pycon.org/2025/schedule/ope

#PyConUS2025 #PyConUSOpenSpaces

2025-03-26

Как спрогнозировать вес птицы с помощью XGBoost: от предобработки данных до оптимизации модели

Привет, Хабр! Вот когда каждый грамм действительно имеет значение: если вам нужно спрогнозировать вес птицы перед продажей, чтобы экономить на кормах и оптимизировать производство. Меня зовут Михаил Чирков, я data scientist в R-Style Softlab и сегодня хочу поделиться с вами кейсом прогнозирования с помощью XGBoost, этот проект мы делали в рамках внедрения BI-системы для птицефабрики.

habr.com/ru/companies/rshb/art

#XGBoost #CatBoost #Градиентный_бустинг #машинное_обучение

2024-10-23

Исследование опенсорс-инструментов в области ML/Data от ИТМО: выводы и инсайты

Новые инструменты в области ML/Data меняют правила в опенсорсе ― позволяют создавать решения быстрее и дешевле и это трансформирует существующие практики. Мы в центре «Сильный ИИ в промышленности» ИТМО задались вопросом: куда мы уже пришли и как эта отрасль изменится в ближайшие годы. А чтобы на него ответить, провели масштабное аналитическое исследование open source ― посмотрели как разработки крупных компаний, так и университетов, поговорили с экспертами рынка и проанализировали выложенный на GitHub код. На Хабре уже выходила новость с перечнем основных игроков и некоторыми результатами. В этой статье ― более подробные выводы и инсайты от экспертов ― как тех, что уже участвовали в исходном исследовании, так и тех, кто решил прокомментировать результаты уже после публикации.

habr.com/ru/companies/spbifmo/

#open_source #github #catboost #университет_итмо #искусственный_интеллект #data_science #machine_learning #исследования_и_прогнозы_в_it #машинное_обучение

2024-10-08

Учимся на чужих ошибках: как прокачать SIEM с помощью machine learning

Привет, Хабр! В этой статье мы хотим поговорить о применении технологий машинного обучения (machine learning, ML) в SIEM-системах. Разберемся, с какими проблемами и ограничениями сталкиваются операторы, расскажем о нашем модуле BAD и о том, как реализованные в нем модели ML помогают вычислять хакеров. А еще заглянем в будущее и посмотрим, как машинное обучение может применяться в SIEM завтра. Все это ждет вас под катом! Под кат →

habr.com/ru/companies/pt/artic

#cybersecurity #siem #ml #machine_learning #behavioral_anomaly_detection #машинное_обучение #catboost #gbm #profiler #кибератаки

2024-09-15

🚀 Day 4 of my **30 Kaggle Challenges in 30 Days** is complete! 🎉

Today, I tackled a regression problem using the Abalone dataset, focusing on hyperparameter tuning with **CatBoost**.
You can check out the blog post where I dive into the process: (surajwate.com/blog/regression-)

#Kaggle #MachineLearning #DataScience #Regression #CatBoost #AbaloneDataset

2024-07-24

Как наш ученик попал на стажировку в VK. История Артёма Мазура

Мы следим за жизнью всех ребят, которые приходят в ЦПМ и участвуют в наших проектах. Каждый раз, когда мы узнаем об их достижениях, нам очень трепетно и радостно! Сегодня мы хотим поделиться историей Артёма Мазура, который прошел на стажировку, внимание, в VK!

habr.com/ru/articles/831252/

#vk #вконтакте #стажировка #машинное_обучение #ml #python #go #catboost

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst