#data_science

2025-12-14

Автоэнкодер: как нейросеть учится понимать норму

Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк». В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных . И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер . В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии .

habr.com/ru/articles/976480/

#автоэнкодер #ии #python #data_science #data_analysis

2025-12-12

DAG-классификация: как мы научили поиск определять нужную категорию ступенчатым образом

Одна из важнейших задач поиска — релевантная выдача. Простых универсальных решений здесь нет, а улучшение поиска — долгосрочный процесс, где крупные задачи приходится разбивать на небольшие, последовательные шаги. В этой статье делимся тем, как нам в «Магнит Маркете» удалось значительно улучшить качество поиска с помощью нетривиального подхода: ступенчатой классификации категории поискового запроса.

habr.com/ru/companies/magnit/a

#ml #dag #поиск #ранжирование #релевантный_поиск #релевантность_поисковой_выдачи #data_science #dagмодель #оптимизация_поиска

2025-12-09

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей. Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

habr.com/ru/articles/975082/

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy #statistics #feature_engineering

2025-12-05

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Миронов В.О., Кальченко С.Н. Приветствую вас, бравые хаброжители ;)) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий. Да-да, все видели, эти километровые лонгриды, когда ИИшка выкатывает список профессий, которые попадают под трансформацию. При этом какие-то прогнозы сбываются какие-то нет, как и в целом всё в жизни. Однако, почему именно дифференцированной, да всё потому что, профессии даже не столько дифференцируются, сколько видоизменяются, но их суть остаётся той же. Бывает даже так, что не всегда удаётся охватить весь спектр нововведений.

habr.com/ru/articles/973682/

#analytics #analysis #agrohack #agrocode #machinelearning #computervision #computer_science #data_science #data_analysis #data_engineering

2025-12-04

Как превратить хаотичный ML-проект в систему: пошаговый гайд по DVC + GitHub Actions

Пора строить систему, которая собирается за вечер на двух инструментах: DVC и GitHub Actions . Этот пост - пошаговый гайд , как превратить хаос в полноценный CI/CD‑пайплайн. Без кубернетесов, без сложной инфраструктуры. Зато с автоматизацией, воспроизводимостью и твоим спокойствием :) Начнем ↓ ⠀⠀

habr.com/ru/articles/973268/

#ml #data_science #базы_данных #devops #машинное_обучение #dvc #github_actions #mlops #воспроизводимость #python

2025-12-04

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.

habr.com/ru/companies/wildberr

#рекомендации #рекомендательные_системы #deep_learning #machine_learning #bert4rec #абтесты #recsys #маркетплейс #wildberries #data_science

2025-12-01

Сравнительный анализ 18 LLM моделей: конец монополии?

🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025? Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов. Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude. MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.

habr.com/ru/articles/971864/

#llm #языковые_модели #nlp #сравнение_llm #data_science #ai #python #opensource #computer_vision #обзор

2025-11-30

[Перевод] Почему Python — не лучший язык для data science. Часть 1 — опыт разработчика и исследователя

Команда Python for Devs подготовила перевод статьи Клауса Вилке о том, почему Python, несмотря на статус языка №1 в data science, вовсе не идеален для анализа данных. Автор показывает на реальных примерах из лабораторной практики, что многие операции в Python оказываются куда более громоздкими, чем в R, — и это не вина программистов, а архитектурные особенности инструментов.

habr.com/ru/articles/971046/

#data_science #python #анализ_данных #pandas #tidyverse #производительность

2025-11-23

Оптимальный путь в NLP: как стать Middle за полгода

Разбираю оптимальный путь в NLP: какие темы не нужны, что важно выучить, и как за 6 месяцев выйти на уровень Middle. Внутри — ошибки обучения, приоритеты и подробный роадмап с вопросами для самопроверки.

habr.com/ru/articles/969438/

#NLP #машинное_обучение #data_science #карьера_в_it #обучение_программированию #ml_system_design #трансформеры #rag #нейронные_сети #python

2025-11-16

Пример реализации агентного RAG'а

Многие знают, что такое RAG. Ну, или по крайней мере слышали о нем :) Но не все знают, что типичная архитектура RAG способна отвечать далеко не на все вопросы. У агентного RAG в этом плане гораздо больше возможностей. Агентный RAG может анализировать запрос, составлять план действий и вызвать внешние инструменты. И все это для выполнения поставленной задачи. В этой статье на практическом примере разберем как с помощью marker'а, Qwen3-14B, MCP-сервера, энкодера FRIDA и библиотеки Agno создать несложный агентный RAG. --------------- Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

habr.com/ru/articles/966966/

#agent #llm #ai #tools #rag #data_science #encoder #mcp #mcpserver

2025-11-12

Валидация RAG с помощью RAGAS. Часть 1

Привет, меня зовут Вова Ловцов. Я дата-сайентист, работаю в команде Core DS в Читать первую часть

habr.com/ru/companies/cloud_ru

#ragas #rag #оценка_rag #качество_ответов #core_ds #data_science

2025-11-09

AI-драгдизайн: первая молекула прошла Фазу II

AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию

habr.com/ru/articles/964554/

#ai #аналитика_данных #фармацевтика #data_science #data_analysis #data_mining #искусственный_интеллект

2025-10-31

50 оттенков вайб-кодинга

Краткий обзор двух десятков AI-инструментов, которые можно использовать для написания кода (a.k.a вайб-кодинга). Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

habr.com/ru/articles/962046/

#llm #ai #ide #agents #tools #data_science

2025-10-30

Анализ EEG-датасетов с Kaggle: от сигнала до ML-модели

Электроэнцефалография (ЭЭГ) — это неинвазивный метод регистрации электрической активности мозга через электроды на поверхности головы. За последние годы ЭЭГ-данные перестали быть исключительно медицинской прерогативой и прочно вошли в мир data science. Сегодня их используют в нейромаркетинге для оценки реакций на рекламу, в когнитивных исследованиях для измерения внимания и памяти, в разработке Brain-Computer Interface (BCI) и даже в спортивной аналитике.

habr.com/ru/articles/961840/

#python #data_science #eeg #kaggle

2025-10-30

Облачные AI-платформы: сравнение AWS, GCP и Azure для ML-задач

Привет, Хабр! Сегодня от выбора облачной AI-платформы зависит бюджет проектов, скорость внедрения моделей, и возможность масштабирования готовых решений. Давайте протестируем три ключевые платформы — Amazon SageMaker, Google AI Platform и Azure Machine Learning от Microsoft для реальных задач машинного обучения.

habr.com/ru/companies/bothub/a

#ml #google_cloud_platform #azure #amazon #amazon_s3 #machinelearning #data_science

2025-10-29

Попросил ChatGPT-4o и ChatGPT-5 помочь вкатиться в ML. Да они же одинаковые, Наташ

Все считают 5-ю версию лучше, выше, сильнее. Но есть ли разница для обычного пользователя, который не мониторит бенчмарки и микроапдейты моделей, а просто приходит поболтать с ИИ? Мы поставили эксперимент: сравнили 4о и 5 с точки зрения обывателя, который хочет изучить ML и пришёл за пошаговым планом обучения. Спойлер: в конце всё равно решили подключить живого специалиста.

habr.com/ru/companies/profi_ru

#машинное_обучение #искусственный_интеллект #data_science #обучение_программированию #chatgpt #openai #llm

2025-10-29

С каждым разом ты все опытнее: как я проходил собеседования в Data Science (и около)

Привет, Хабр! Меня зовут Станислав, я аналитик данных с трехлетним опытом и выпускник курса

habr.com/ru/companies/yandex_p

#карьера_итспециалиста #собеседование #собеседования #собеседование_в_it #джуниор #аналитик_данных #data_science

2025-10-28

Книга: «Потоковые базы данных»

Привет, Хаброжители! В наши дни приложения реального времени стали нормой. Но для построения корректно работающей модели требуется, чтобы данные обрабатывались на лету и анализировались с низкой задержкой. Из этой практической книги инженеры, архитекторы и аналитики данных узнают, как использовать потоковые базы данных для создания решений, действующих в режиме реального времени.

habr.com/ru/companies/piter/ar

#data_science #хранение_данных #обработка_данных #потоковые_базы_данных

2025-10-24

Краткий обзор 9 локальных UI для LLM

На просторах интернета можно найти множество интерфейсов для LLM. Все они довольно разношерстные и обладают разным функционалом: от простых чатов до почти энтерпрайз-приложений. Я установил и опробовал 9 них (на самом деле больше, но нормальных только 9 :) В этой статье найдете их краткий обзор. Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

habr.com/ru/articles/960002/

#llm #nlp #tools #data_science #rag #agents #ollama #huggingface

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst