#data_science

2026-01-28

Как превратить университетский SQL в оружие для собеседований в Data Science

Ты изучал SQL в университете, получал пятёрки на экзаменах… а на собеседовании по Data Science сталкиваешься с вопросом про OVER() и думаешь: "Что?! Впервые такое слышу..." В этой статье я рассказываю, как превратить университетский SQL в инструмент, который реально помогает на собеседованиях.

habr.com/ru/articles/990066/

#собеседования #data_science #sql #университет

2026-01-25

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

2026-01-25

Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до офера

Пятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения задачек в JIRA. Разговор зашел о наболевшем: как найти своих людей и команду мечты? Обсудили зарплату и плюшки, удалёнку и офис, стартапы и зрелые продукты, переработки, карьерный рост и рабочую культуру. В статье - цитаты из обсуждения и обобщённые выводы. А в конце - список вопросов, которые стоит задать на собеседовании, чтобы не ошибиться с выбором и найти тех людей, с кем не страшно будет выкатить релиз в пятницу вечером.

habr.com/ru/articles/988680/

#собеседование #вакансия #редфлаги #ml #data_science #data_analysis #переработки #команда_мечты #команда #плюшки

2026-01-23

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

habr.com/ru/companies/vsk_insu

#bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

2026-01-19

Покоряем гору временных рядов: делаем прогноз для 200+ рядов с библиотекой Etna

Я работаю дата-сайентистом 5 лет и до сих пор испытываю боль, когда нужно сделать MVP по временным рядам. Начиная с того, как построить несколько графиков одновременно без «слипшихся» меток по осям, заканчивая поиском подходящего метода очистки ряда от аномалий. И всё это венчает цикл по каждому ряду с бесконечным жонглированием данными между numpy, pandas, sklearn, yet_another_library. Если вы DS, и тоже, как и я, устали от вот этого всего, добро пожаловать под кат. Я покажу, как написать production-ready код для прогноза 200+ временных рядов от EDA до результата. Разберем на практике, как бороться с аномалиями, ловить смены тренда и в итоге – получить масштабируемое решение, а не очередной «велосипед».

habr.com/ru/companies/magnit/a

#data_science #machine_learning #анализ_данных #временные_ряды #productionready_код #прогнозирование #прогнозирование_спроса #магнит #etna

2026-01-17

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива

Привет, Хабр! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним...

habr.com/ru/articles/986180/

#data_science #python #ai #rag #github #соревнование #хакатон #райффайзенбанк #machine_learning #ai_engineering

2026-01-17

Титаник глазами новичка в 2026

Эта статья проведёт вас через классический проект по машинному обучению — анализ датасета Titanic. Мы разберём полный цикл работы: от первоначального знакомства с данными и их очистки до построения и валидации первых предсказательных моделей. Вы узнаете, как преобразовывать категориальные признаки, создавать новые переменные, бороться с пропущенными значениями и оценивать качество моделей через ключевые метрики. На примере Random Forest и логистической регрессии наглядно показываю, как разные алгоритмы решают одну задачу и почему выбор модели зависит от поставленной цели.

habr.com/ru/articles/986128/

#titanic #титаник #ml #ai #kaggle_competition #kaggle #машинное+обучение #data_science

2026-01-17

Рынок лимонов и «размалеванные барышни»: текст вакансии как честное зеркало компании (датасет 146 000 вакансий)

Пока соискателей учат быть «размалеванными барышнями», работодатели на «рынке лимонов» никому ничего не должны. Можно ли узнать, что ждет внутри, еще до получения оффера? Что, если я скажу: текст вакансии — это честная проекция «внутренней кухни» компании? Я уверена, так как проверила это на личном кейсе, и, вооружившись этим инструментом, проанализировала 146 000 вакансий . О том, почему и как это возможно — для тех, кто не считает неудачное трудоустройство «ценным опытом» — рассказываю ниже.

habr.com/ru/articles/986086/

#NLP #Data_Science #анализ_данных #рынок_труда #поиск_работы #корпоративная_культура #анализ_вакансий #HRtech #карьера #выгорание

2026-01-16

Разметка данных: самая дорогая часть машинного обучения

Доброго времени суток, «Хабр»! В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных. Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта. Принимайте стратегические удобное положение, ну а я начинаю свое повествование.

habr.com/ru/companies/bothub/a

#разметка_данных #ai #ии #нейросеть #машинное_обучение #Data_Science #dataset #quality_assurance #active_learning #Weak_Supervision

2026-01-16

[Перевод] Rust в действии: допечатка

Всем привет! Мы гордимся тем, с каким успехом и рвением выпускаем на русском языке крутую литературу по языку Rust. Мы занялись этим, когда Rust ещё далеко не был мейнкуном мейнстримом - и нашим первым (и сразу же очень успешным) заходом в тему была ныне легендарная книга Тима Макнамары "Rust in Action". Она вышла в издательстве "Manning" в 2021 году, а на русском языке мы выпустили первый тираж " Rust в действии " в ноябре 2022 года. Очередная допечатка закончилась к новому 2025 году, и мы решили разместить здесь переводную статью о книге для привлечения внимания к свежей допечатке (тираж ограничен!) С тех пор эта книга стала базовым введением в Rust и пропуском в отрасль, но мы на ней, конечно, не остановились. Далее мы выпустили:

habr.com/ru/companies/bhv_publ

#Rust #Python #C++ #data_science #книги

2026-01-11

Визуализация на Python за 15 минут: пошаговый гайд по Seaborn для начинающих

Matplotlib — это мощно, но часто «многословно». Чтобы превратить стандартный график в нечто презентабельное, приходится писать десятки строк настройки осей и легенд. В этой статье я собрал практическую шпаргалку (Cookbook) по библиотеке Seaborn. Разберем, как одной строкой строить красивые Heatmap, Boxplot и Pairplot. Минимум теории, максимум готовых рецептов (copy-paste), которые покроют 90% задач аналитика.

habr.com/ru/articles/984144/

#seaborn #python3 #визуализация_данных #data_science #matplotlib #анализ_данных

2026-01-09

Взгляд разметчика данных

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

habr.com/ru/articles/983886/

#разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

2026-01-06

Рабочие станции для ML и Data Science — как собрать сервер под столом

Внимание: опасный эксперимент! Когда я впервые решил собрать домашний ML-сервер, всё казалось простым: взять мощный ПК, всунуть две RTX 4090 – и вперед, нейросетки летят. Реальность быстро заставила меня попотеть. Оказалось, что сборка AI-фермы под столом – это совсем не то же самое, что собрать игровой ПК. Это отдельное приключение со своими подводными камнями. У меня до сих пор сохранился лёгкий тик от слова «TDP» , а шрам на пальце напоминает о сгоревшем проводе. Но обо всём по порядку.

habr.com/ru/articles/983280/

#Рабочие_станции #Data_Science #сервер #серверы

2026-01-02

Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность

Закройте глаза и вспомните знаменитое новогоднее обращение Бориса Ельцина 31 декабря 1999 года. В голове сразу звучит хриплый голос и культовая фраза «Я устал, я ухожу». Однако любой, кто хоть раз интересовался природой памяти, прекрасно знает об отсутствии этих слов в реальности. В оригинальной записи звучит лишь: «Я ухожу. Я сделал всё, что мог» . Мы привыкли называть подобное Эффектом Манделы или массовым искажением восприятия. Но давайте отбросим социологию и взглянем на ситуацию как на чисто технический процесс обработки данных.

habr.com/ru/articles/982494/

#LLM #ChatGPT #Искусственный_интеллект #Галлюцинации_нейросетей #Эффект_Манделы #Когнитивные_искажения #Психология_мышления #Архитектура_нейросетей #Data_Science #Трансформеры

2025-12-29

Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова , я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. Детектор появился из практической потребности: генеративные модели стали достаточно хороши, чтобы их результат массово попадал в пользовательский контент, и платформе понадобился автоматический способ с этим работать. Создание такого инструмента — это не только обучение модели, но и большое количество инженерных, продуктовых и методологических решений: что считать генерацией, на каких данных обучаться, как обеспечить устойчивость к новым моделям и как интегрировать детектор в реальные процессы. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.

habr.com/ru/companies/wildberr

#метрики #ai #machinelearning #data_science #computervision #компьютерное_зрение #transformers #generative_models #генеративный_ии #нейросети

2025-12-26

Как построить идеальную «песочницу» для ML-моделей

Привет, Хабр! Я Даниил Салман, техлид по контейнеризации. Эта статья написана по мотивам моего доклада для конференции DevOops. Разберёмся, как сделать такую ML-«песочницу», где Data Scientist пишет код, а всё остальное (установка драйверов, выделение ресурсов, деплой и тренировка модели, сбор метрик) уже настроено на бэкенде. Написали максимально просто и доступно, чтобы понять смог даже человек с минимальным погружением в тему. Идеи из этой статьи можно применять в любой инфраструктуре — важно лишь понимать основы: как работает k8s-кластер, Docker и python-фреймворки. Итак, поехали!

habr.com/ru/companies/k2tech/a

#инфраструктура #ml #mlops #ai #ml_песочница #искусственный_интеллект #data_science #модели #devops #kubernetes

2025-12-24

Стек начинающего дата-сайентиста в 2026: инструменты для роста

Привет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье я разбирал ошибки в резюме джунов (и не только) , которые снижают шансы попасть в ML. Сегодня расскажу, как упорядочить инструменты data scientist'а, чтобы легко адаптироваться в специальности. Введение Недавно мне показали проект по прогнозированию ремонта вагонов. Несколько десятков параметров, миллионы записей. Всё решение — один файл Jupyter Notebook и пара скриптов. Я открыл этот файл. Две тысячи строк кода. Названия переменных вроде df_tmp_final_v3. Комментарии на смеси русского и английского. Сохранённые модели назывались model_good.pkl и model_production_maybe.pkl. Некоторые ячейки кода было страшно запускать. Ни документации, ни записи о проведённых тестах. Узнаёте? Это частая реальность в области данных. Вы не одиноки Многие начинающие специалисты задают похожие вопросы: Как работать, когда тестов уже несколько десятков? Вы перебираете настройки и алгоритмы, но через неделю не можете вспомнить, что дало лучший результат. Как внедрить модель? В Notebook всё работает, но как превратить её в сервис, который сможет использовать ваше приложение? Хорошая новость: для этих проблем уже есть решения. На курсах об этом часто не говорят...

habr.com/ru/companies/pgk/arti

#automl #ml #машинное_обучение #data_science #mlops #карьера_итспециалиста #карьера

2025-12-22

[Перевод] Manim: как создавать математические анимации в стиле 3Blue1Brown с помощью Python

Команда Python for Devs подготовила перевод статьи о Manim — Python-инструменте для создания наглядных математических анимаций в стиле 3Blue1Brown. Разбираемся, как с помощью кода визуализировать уравнения, графики и абстрактные идеи так, чтобы они были понятны коллегам, менеджерам и студентам.

habr.com/ru/articles/978902/

#manim #3blue1brown #latex #data_science #математика #анимация #визуализация #графики

2025-12-21

Анализ 400k вакансий hh.ru: как мы строили пайплайн и какие тренды нашли

Какие навыки реально нужны в IT? Разбор рынка по данным hh.ru . Мы обработали 393 000 вакансий за 2025 год и делимся результатами: универсальный стек технологий, медианные зарплаты по специальностям и доля удаленки. А еще — техническая реализация нашего open-source проекта для сбора данных.

habr.com/ru/articles/979118/

#Анализ_данных #Python #hhru #API #SQLite #Визуализация_данных #базы_данных #data_science #проектирование_систем

2025-12-19

Выбираем между DS и AI

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) имеют некоторые сходства и у начинающих специалистов может возникнуть путаница в этих специализациях. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к соответствующим специалистам. Выбрать путь

habr.com/ru/companies/otus/art

#ai #data_science #искусственный_интеллект #машинное_обучение #карьера_в_it

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst