#Data_science

2025-06-23

And still going...

A jupyter notebook for data science
2025-06-23

Автоматизация сбора и анализа вакансий с сайта Хэдхантер

Заинтересовался задачей автоматизации сбора и проведения небольшого анализа вакансий IT-специалистов в России. После беглого исследования пришел к выводу, что удобных бесплатных и расширяемых инструментов нет и решил написать свой на Python. В качестве источника идей, прежде всего для графиков, использовал проект hh_research Александра Капитанова. HH Inspector получился универсальным и может быть использован широким кругом пользователей в качестве базы для решения своих задач, поэтому выкладываю его в качестве open-source проекта . Все подробности - ниже. Читать дальше!

habr.com/ru/articles/920942/

#python #data_science #headhunter #api #pandas #matplotlib

2025-06-19

[Перевод] Линейная регрессия в ML для самых маленьких

В мире машинного обучения есть много всего интересного, но тем, кто только начинает свой путь в этой области часто бывает многое непонятно. В этой статье мы попробуем разобраться с линейной регрессией. Линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Проще говоря, он помогает понять, как изменение одного или нескольких предикторов (независимых переменных) влияет на результат (зависимую переменную). Подумайте об этом, как о проведении прямой линии через диаграмму рассеяния точек данных, которая наилучшим образом отражает связь между этими точками.

habr.com/ru/companies/otus/art

#ml #linear_regression #линейная_регрессия #обучение_модели #scikitlearn #python #data_science

2025-06-15

Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение. Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять , но так же не лишая полноты! Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу ! Это самое важное, оно происходит в секции с кодом. Будет здорово получить ваши задачи и в следующих выпусках разобрать! Взглянуть на старое под новым углом

habr.com/ru/articles/918438/

#machine_learning #data_science #python #scikitlearn #mlинтервью #svm #naive_bayes #регуляризация #линейная_регрессия #алгоритмы

Sara-Jayne Slocombe (she/her)sjslocombe@mathstodon.xyz
2025-06-13

Have any of you found a suitable non-US alternative for Excel when using it as a power user - using the advanced functionality? I found Libre Calc very wanting when I last tried it a few years ago.

#Data #data_science #mathematics #math #maths #Microsoft #Software

2025-06-13

Тренды 2025 года в сфере работы с данными и ИИ

Привет! Меня зовут Антон Моргунов, я академический руководитель программы онлайн-магистратуры Яндекса и МИФИ

habr.com/ru/companies/yandex_p

#data_science #яндекс_практикум #тренды_2025 #аналитика_данных #ml #ai

2025-06-06

Агентная экономика. Дайджест за неделю

Для тех, кто следит за трендами Умной Автоматизации (ИИ-агенты, Мультиагентные системы, Ко-пилоты), чтобы понимать тему глубже и принимать верные решения. Дайджест по материалам McKinsey, Research IBM, PWC и Wired.

habr.com/ru/articles/916144/

#автоматизация #ии_агенты #агентная_экономика #бизнеспроцессы #data_science #мультиагентные_системы #devops

2025-06-05

Data Science + Разработка =… или Как наладить процессы в растущей кросс-функциональной команде

Привет, Хабр! Меня зовут Саша Лапина, я проджект-менеджер* в Lamoda Tech, в стриме по разработке внутреннего продукта — ML-модели оптимизации ценообразования. Поделюсь кейсом управления разработкой и расскажу, как мы налаживали процессы в нашей кросс-функциональной команде, которая за 2 года выросла в шесть раз.

habr.com/ru/companies/lamoda/a

#project_management #управление_командой #data_science #масштабирование_команды #product_management #выстраивание_процессов #повышение_эффективности #тимлидство #кроссфункциональные_команды #кроссфункциональное_взаимодействие

2025-06-05

Многорукие бандиты: когда классическое тестирование не работает

Привет, Хабр! Мы команда ЖЦК, занимаемся машинным обучением в ВТБ. Сегодня расскажем про алгоритмическую магию, которая творится прямо у нас под носом. Авторами проекта этой магии в ВТБ стали дата-сайентисты Дмитрий Тимохин, Василий Сизов, Александр Лукашевич и Егор Суравейкин. Речь пойдет не о хитрых нейросетях с их миллионами параметров, а о простом подходе, который помог им и команде сэкономить много времени на решении задач, в которых раньше использовались классические методы тестирования.

habr.com/ru/companies/vtb/arti

#многорукий_бандит #abтестирование #рекомендательные_системы #data_science #machine_learning

2025-06-04

Trust & Safety AI Meetup — как это было?

Привет! 22 мая прошел Trust & Safety AI Meetup — обсудили применение AI в борьбе за безопасность и доверие пользователей. К ивенту присоединились спикеры из Wildberries & Russ, Avito, AI Masters, а в зале встретились 60+ гостей и онлайн‑трансляция собрала 250+ просмотров. Смотри фото , чтобы погрузиться в атмосферу митапа! В программе было два доклада, насыщенная дискуссия, классный мерч, новые знакомства и полезный нетворкинг. В статье вы найдете видеозаписи с ивента :)

habr.com/ru/companies/wildberr

#ml #ai #информационная_безопасность #митап #meetup #конференция #wb #wbtech #data_science #доклады

2025-06-03

MVP по «умному» поиску данных

Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию. Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут. Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла. Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»

habr.com/ru/companies/alfa/art

#mvp #gpt #ai #feature_store #data_science #datamarket #mlops #токенизатор #классификация

2025-05-24

Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее

Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще. Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов. Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье!

habr.com/ru/companies/datafeel

#Recovering_Difference_Softmax #RDS #duolingo #data_science #machinelearning #datafeeling

2025-05-23

Топ-статей Saint HighLoad++ 2025

В этом году Saint HighLoad++ снова собирает экспертов индустрии на берегу Невы. А я уже знаю, какие темы вызовут настоящий хайп среди инженеров и разработчиков. Ловите инсайдерскую подборку топовых статей самых ожидаемых докладов конференции: только практика, реальные факапы и технологические прорывы.

habr.com/ru/companies/oleg-bun

#highload++ #архитектура #базы_данных #системы_хранения #platform_engineering #безопасность #эксплуатация_систем #data_science #тестирование #data_engineering

2025-05-22

SQL: бесплатные курсы и тренажёры, которые стоит попробовать

Всем привет! Это команда Яндекс Практикума. Делимся подборкой полезных материалов для изучения SQL от экспертов курса

habr.com/ru/companies/yandex_p

#sql #анализ_данных #data_science

2025-05-21

[Перевод] Теневая сторона AutoML: когда no-code инструменты вредят больше, чем помогают

AutoML обещает лёгкий вход в машинное обучение: не нужно разбираться с пайплайнами, настраивать гиперпараметры и писать код — просто загрузи данные и получи модель. Но за удобством скрываются архитектурные риски, которые не всегда видны на первом этапе. От непрозрачных решений до «тихого дрейфа» и невозможности отката — автоматизация может не упростить, а усложнить жизнь, особенно в проде. В этой статье — разбор того, что на самом деле строит AutoML, где он действительно полезен, и почему его нельзя воспринимать как волшебную кнопку.

habr.com/ru/companies/otus/art

#mlops #data_science #машинное_обучение #Автоматизация_ML #Версионирование_данных

2025-05-21

Современные подходы к матчингу товаров с использованием LLM. Опыт в e-commerce

Привет, Хабр! Меня зовут Виталий Кулиев и я Data Science Tech Lead из Wildberries. На конференции HighLoad++ 2024 поделился опытом своей команды в решении задачи матчинга товаров с помощью больших языковых (LLM) и визуально-языковых (VLM) моделей.

habr.com/ru/companies/oleg-bun

#llm #matching #product_matching #машинное_обучение #ai #wb #wbtech #матчинг #матчинг_товаров #data_science

2025-05-17

Мое худшее собеседование в Data Science

Дело было в начале третьего курса учёбы в МФТИ, во времена COVID. Более полугода я активно изучал ML: прошёл несколько курсов, выучил теорию, за месяц прошёл парочку собеседований — в Ozon, Сбер и Яндекс. Там всё было более чем цивильно: очень приятные интервьюеры, простые, добрые люди. Во время собеседований помогали, подсказывали молодому, зелёному ботеру. Остались исключительно приятные воспоминания. И вот в телеграм-канале с вакансиями я увидел злополучный пост про стажировку в МТС . Тогда я ещё не подозревал, что даже в таких крупных компаниях на собеседованиях может происходить настоящий трешачок.

habr.com/ru/articles/910276/

#собеседование #собеседования #собеседование_в_it #собеседование_вопросы #собеседование_на_работу #машинное_обучение #data_science

2025-05-15

Путь в AI: от студента до инженера, исследователя или разработчика

Привет, Хабр! Меня зовут Анна Щеникова. Я работаю AI-инженером в Центре RnD МТС Web Services и параллельно лидирую магистерскую программу « Исследования и предпринимательство в искусственном интеллекте » ВШЭ. В МТС занимаюсь всем, что связано с моделями: вместе с коллегами тестирую гипотезы про агентов и мультимодельные подходы. Переход от студенческой жизни к профессиональной деятельности — важный и сложный этап. Это первые серьезные шаги в карьере, первое понимание, как применить полученные знания в реальном бизнесе. Я прошла этот путь несколько раз: сначала сама, а потом помогая магистрантам в ВШЭ. Так я увидела, какие ключевые точки нужно проработать, чтобы комфортно и весело перейти от теории к реальным бизнес-задачам. В этом посте расскажу о своем опыте перехода к полноценной работе и поделюсь видением того, что будет актуальным в сфере AI в ближайшем будущем. Надеюсь, это поможет кому-нибудь правильно спланировать карьеру.

habr.com/ru/companies/ru_mts/a

#карьера_итспециалиста #карьера_в_itиндустрии #aiинженер #карьерный_рост #rnd #data_science #machine_learning #AIразработчик #bigdata #студенты_в_it

2025-05-14

Переходим от legacy к построению Feature Store

Невероятная история о том, как внедрить систему Feature Store в проект с огромным legacy и получить профит. Привет, Хабр! Меня зовут Евгений Дащенко, я из компании «Домклик», которая решает все вопросы, связанные с недвижимостью, включая оценку стоимости недвижимости любого типа. Это статья по мотивам моего доклада на конференции Highload++ про интерфейс между данными и ML-моделями Feature Store: как мы сделали его с нашей командой, каких результатов добились и с какими подводными камнями столкнулись на пути.

habr.com/ru/companies/oleg-bun

#feature_store #ml #mlops #ai #python #машинное_обучение #архитектура #обработка_данных #ops #data_science

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst