And still going...
And still going...
Автоматизация сбора и анализа вакансий с сайта Хэдхантер
Заинтересовался задачей автоматизации сбора и проведения небольшого анализа вакансий IT-специалистов в России. После беглого исследования пришел к выводу, что удобных бесплатных и расширяемых инструментов нет и решил написать свой на Python. В качестве источника идей, прежде всего для графиков, использовал проект hh_research Александра Капитанова. HH Inspector получился универсальным и может быть использован широким кругом пользователей в качестве базы для решения своих задач, поэтому выкладываю его в качестве open-source проекта . Все подробности - ниже. Читать дальше!
[Перевод] Линейная регрессия в ML для самых маленьких
В мире машинного обучения есть много всего интересного, но тем, кто только начинает свой путь в этой области часто бывает многое непонятно. В этой статье мы попробуем разобраться с линейной регрессией. Линейная регрессия — это статистический метод, используемый для моделирования взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Проще говоря, он помогает понять, как изменение одного или нескольких предикторов (независимых переменных) влияет на результат (зависимую переменную). Подумайте об этом, как о проведении прямой линии через диаграмму рассеяния точек данных, которая наилучшим образом отражает связь между этими точками.
https://habr.com/ru/companies/otus/articles/919258/
#ml #linear_regression #линейная_регрессия #обучение_модели #scikitlearn #python #data_science
Фундаментальные вопросы по ML/DL, часть 1: Вопрос → Краткий ответ → Разбор → Пример кода. Линейки. Байес. Регуляризация
У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение. Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять , но так же не лишая полноты! Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу ! Это самое важное, оно происходит в секции с кодом. Будет здорово получить ваши задачи и в следующих выпусках разобрать! Взглянуть на старое под новым углом
https://habr.com/ru/articles/918438/
#machine_learning #data_science #python #scikitlearn #mlинтервью #svm #naive_bayes #регуляризация #линейная_регрессия #алгоритмы
Have any of you found a suitable non-US alternative for Excel when using it as a power user - using the advanced functionality? I found Libre Calc very wanting when I last tried it a few years ago.
#Data #data_science #mathematics #math #maths #Microsoft #Software
Тренды 2025 года в сфере работы с данными и ИИ
Привет! Меня зовут Антон Моргунов, я академический руководитель программы онлайн-магистратуры Яндекса и МИФИ
https://habr.com/ru/companies/yandex_praktikum/articles/915322/
#data_science #яндекс_практикум #тренды_2025 #аналитика_данных #ml #ai
Агентная экономика. Дайджест за неделю
Для тех, кто следит за трендами Умной Автоматизации (ИИ-агенты, Мультиагентные системы, Ко-пилоты), чтобы понимать тему глубже и принимать верные решения. Дайджест по материалам McKinsey, Research IBM, PWC и Wired.
https://habr.com/ru/articles/916144/
#автоматизация #ии_агенты #агентная_экономика #бизнеспроцессы #data_science #мультиагентные_системы #devops
Data Science + Разработка =… или Как наладить процессы в растущей кросс-функциональной команде
Привет, Хабр! Меня зовут Саша Лапина, я проджект-менеджер* в Lamoda Tech, в стриме по разработке внутреннего продукта — ML-модели оптимизации ценообразования. Поделюсь кейсом управления разработкой и расскажу, как мы налаживали процессы в нашей кросс-функциональной команде, которая за 2 года выросла в шесть раз.
https://habr.com/ru/companies/lamoda/articles/915126/
#project_management #управление_командой #data_science #масштабирование_команды #product_management #выстраивание_процессов #повышение_эффективности #тимлидство #кроссфункциональные_команды #кроссфункциональное_взаимодействие
Многорукие бандиты: когда классическое тестирование не работает
Привет, Хабр! Мы команда ЖЦК, занимаемся машинным обучением в ВТБ. Сегодня расскажем про алгоритмическую магию, которая творится прямо у нас под носом. Авторами проекта этой магии в ВТБ стали дата-сайентисты Дмитрий Тимохин, Василий Сизов, Александр Лукашевич и Егор Суравейкин. Речь пойдет не о хитрых нейросетях с их миллионами параметров, а о простом подходе, который помог им и команде сэкономить много времени на решении задач, в которых раньше использовались классические методы тестирования.
https://habr.com/ru/companies/vtb/articles/915698/
#многорукий_бандит #abтестирование #рекомендательные_системы #data_science #machine_learning
Trust & Safety AI Meetup — как это было?
Привет! 22 мая прошел Trust & Safety AI Meetup — обсудили применение AI в борьбе за безопасность и доверие пользователей. К ивенту присоединились спикеры из Wildberries & Russ, Avito, AI Masters, а в зале встретились 60+ гостей и онлайн‑трансляция собрала 250+ просмотров. Смотри фото , чтобы погрузиться в атмосферу митапа! В программе было два доклада, насыщенная дискуссия, классный мерч, новые знакомства и полезный нетворкинг. В статье вы найдете видеозаписи с ивента :)
https://habr.com/ru/companies/wildberries/articles/914944/
#ml #ai #информационная_безопасность #митап #meetup #конференция #wb #wbtech #data_science #доклады
A deep dive into self-improving AI and the Darwin-Gödel Machine
https://richardcsuwandi.github.io/blog/2025/dgm/
#ycombinator #academic #personal #phd #richard_cornelius_suwandi #cuhk #cuhksz #machine_learning #artificial_intelligence #data_science #bayesian_optimization
MVP по «умному» поиску данных
Всем привет, меня зовут Александр, я аналитик в Альфа-Банке. Совместно с командой мы разрабатываем и развиваем платформу для дата-инженеров (DE) и дата-саентистов (DS), именуемую Feature Store. Она даёт возможность коллегам работать с большими данными и упрощает бюрократию жизненного цикла создания ETL и ввода моделей в промышленную эксплуатацию. Но хотелось бы улучшить процесс по поиску данных в ней, так как объёмы информации стремительно растут. Классический поиск выдаёт результаты по точному совпадению, и это не самый удобный вариант, когда данных много. Поэтому нужную информацию, если ты точно не знаешь как найти, невозможно отыскать. Озадачившись этой проблемой, я решил сделать MVP «умного» поиска, который позволяет искать данные/фичи/поля не по точному совпадению, а с учётом смысла. Надеюсь, данная статья поможет показать и пролить свет на вопрос — «А как же ещё бывает?»
https://habr.com/ru/companies/alfa/articles/915012/
#mvp #gpt #ai #feature_store #data_science #datamarket #mlops #токенизатор #классификация
Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее
Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще. Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов. Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье!
https://habr.com/ru/companies/datafeel/articles/908770/
#Recovering_Difference_Softmax #RDS #duolingo #data_science #machinelearning #datafeeling
Топ-статей Saint HighLoad++ 2025
В этом году Saint HighLoad++ снова собирает экспертов индустрии на берегу Невы. А я уже знаю, какие темы вызовут настоящий хайп среди инженеров и разработчиков. Ловите инсайдерскую подборку топовых статей самых ожидаемых докладов конференции: только практика, реальные факапы и технологические прорывы.
https://habr.com/ru/companies/oleg-bunin/articles/912138/
#highload++ #архитектура #базы_данных #системы_хранения #platform_engineering #безопасность #эксплуатация_систем #data_science #тестирование #data_engineering
SQL: бесплатные курсы и тренажёры, которые стоит попробовать
Всем привет! Это команда Яндекс Практикума. Делимся подборкой полезных материалов для изучения SQL от экспертов курса
https://habr.com/ru/companies/yandex_praktikum/articles/904104/
[Перевод] Теневая сторона AutoML: когда no-code инструменты вредят больше, чем помогают
AutoML обещает лёгкий вход в машинное обучение: не нужно разбираться с пайплайнами, настраивать гиперпараметры и писать код — просто загрузи данные и получи модель. Но за удобством скрываются архитектурные риски, которые не всегда видны на первом этапе. От непрозрачных решений до «тихого дрейфа» и невозможности отката — автоматизация может не упростить, а усложнить жизнь, особенно в проде. В этой статье — разбор того, что на самом деле строит AutoML, где он действительно полезен, и почему его нельзя воспринимать как волшебную кнопку.
https://habr.com/ru/companies/otus/articles/911456/
#mlops #data_science #машинное_обучение #Автоматизация_ML #Версионирование_данных
Современные подходы к матчингу товаров с использованием LLM. Опыт в e-commerce
Привет, Хабр! Меня зовут Виталий Кулиев и я Data Science Tech Lead из Wildberries. На конференции HighLoad++ 2024 поделился опытом своей команды в решении задачи матчинга товаров с помощью больших языковых (LLM) и визуально-языковых (VLM) моделей.
https://habr.com/ru/companies/oleg-bunin/articles/911210/
#llm #matching #product_matching #машинное_обучение #ai #wb #wbtech #матчинг #матчинг_товаров #data_science
Мое худшее собеседование в Data Science
Дело было в начале третьего курса учёбы в МФТИ, во времена COVID. Более полугода я активно изучал ML: прошёл несколько курсов, выучил теорию, за месяц прошёл парочку собеседований — в Ozon, Сбер и Яндекс. Там всё было более чем цивильно: очень приятные интервьюеры, простые, добрые люди. Во время собеседований помогали, подсказывали молодому, зелёному ботеру. Остались исключительно приятные воспоминания. И вот в телеграм-канале с вакансиями я увидел злополучный пост про стажировку в МТС . Тогда я ещё не подозревал, что даже в таких крупных компаниях на собеседованиях может происходить настоящий трешачок.
https://habr.com/ru/articles/910276/
#собеседование #собеседования #собеседование_в_it #собеседование_вопросы #собеседование_на_работу #машинное_обучение #data_science
Путь в AI: от студента до инженера, исследователя или разработчика
Привет, Хабр! Меня зовут Анна Щеникова. Я работаю AI-инженером в Центре RnD МТС Web Services и параллельно лидирую магистерскую программу « Исследования и предпринимательство в искусственном интеллекте » ВШЭ. В МТС занимаюсь всем, что связано с моделями: вместе с коллегами тестирую гипотезы про агентов и мультимодельные подходы. Переход от студенческой жизни к профессиональной деятельности — важный и сложный этап. Это первые серьезные шаги в карьере, первое понимание, как применить полученные знания в реальном бизнесе. Я прошла этот путь несколько раз: сначала сама, а потом помогая магистрантам в ВШЭ. Так я увидела, какие ключевые точки нужно проработать, чтобы комфортно и весело перейти от теории к реальным бизнес-задачам. В этом посте расскажу о своем опыте перехода к полноценной работе и поделюсь видением того, что будет актуальным в сфере AI в ближайшем будущем. Надеюсь, это поможет кому-нибудь правильно спланировать карьеру.
https://habr.com/ru/companies/ru_mts/articles/909316/
#карьера_итспециалиста #карьера_в_itиндустрии #aiинженер #карьерный_рост #rnd #data_science #machine_learning #AIразработчик #bigdata #студенты_в_it
Переходим от legacy к построению Feature Store
Невероятная история о том, как внедрить систему Feature Store в проект с огромным legacy и получить профит. Привет, Хабр! Меня зовут Евгений Дащенко, я из компании «Домклик», которая решает все вопросы, связанные с недвижимостью, включая оценку стоимости недвижимости любого типа. Это статья по мотивам моего доклада на конференции Highload++ про интерфейс между данными и ML-моделями Feature Store: как мы сделали его с нашей командой, каких результатов добились и с какими подводными камнями столкнулись на пути.
https://habr.com/ru/companies/oleg-bunin/articles/908970/
#feature_store #ml #mlops #ai #python #машинное_обучение #архитектура #обработка_данных #ops #data_science