#Data_Analysis

2025-12-14

Автоэнкодер: как нейросеть учится понимать норму

Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк». В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных . И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер . В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии .

habr.com/ru/articles/976480/

#автоэнкодер #ии #python #data_science #data_analysis

2025-12-10

Система мониторинга ML-моделей: что важно контролировать и почему

«Обучил, запустил и забыл» — плохая стратегия работы с ML‑моделями, но она часто встречается после удачного тестирования. Качество моделей может незаметно снижаться, и если пропустить этот момент — последствия могут дорого стоить. Когда мы начали задумываться о системе мониторинга, одна из наших моделей начала выдавать предсказания, которые требовали незамедлительного вмешательства в выстроенную работу. Но разум подсказывал, что проблема не в процессе, а в модели. О том, каким трудоемким оказалось наше расследование, и как мы восстанавливали и изучали каждую составляющую процесса почти вслепую, читайте по ссылке . Быть детективами нам понравилось, но вкладывать столько усилий в каждый подобный случай не хочется. Мы поняли, что нужно научиться контролировать работу модели так, чтобы своевременно находить проблему и чинить ее, используя минимальное количество ресурсов. В серии из двух статей расскажу, как мы построили систему мониторинга ML‑моделей силами одного человека за несколько месяцев.

habr.com/ru/companies/tochka/a

#ml #monitoring #drift #data_analysis #модель

2025-12-06

Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

В 2025 году retention снова стал главной метрикой рынка. Трафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам. Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».

habr.com/ru/articles/973922/

#retention #product_analytics #user_behavior #cohort_analysis #ai #data_analysis #llm #customer_journey_map #metrics #product

2025-12-05

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Миронов В.О., Кальченко С.Н. Приветствую вас, бравые хаброжители ;)) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий. Да-да, все видели, эти километровые лонгриды, когда ИИшка выкатывает список профессий, которые попадают под трансформацию. При этом какие-то прогнозы сбываются какие-то нет, как и в целом всё в жизни. Однако, почему именно дифференцированной, да всё потому что, профессии даже не столько дифференцируются, сколько видоизменяются, но их суть остаётся той же. Бывает даже так, что не всегда удаётся охватить весь спектр нововведений.

habr.com/ru/articles/973682/

#analytics #analysis #agrohack #agrocode #machinelearning #computervision #computer_science #data_science #data_analysis #data_engineering

2025-11-19

Анализируем MLP сообщество на Пикабу или как я спарсил 65 тысяч постов с Pikabu и построил интерактивный дашборд

Дело было вечером, делать было нечего... Я, как и многие в IT, периодически просматриваю вакансии, чтобы держать руку на пульсе рынка. И знаете, что бросается в глаза? Огромное количество позиций "Аналитик данных". Хоть это и не моя основная специализация (я больше по ML), теоретическая база у меня есть. И вот я подумал: а как бы мне сделать интересный пет-проект в этой области, чтобы и навыки прокачать, и самому не заскучать?

habr.com/ru/articles/968106/

#python #парсинг #data_analysis #streamlit #дэшборд #пикабу #aiohttp #визуализация_данных #петпроект #plotly

2025-11-09

AI-драгдизайн: первая молекула прошла Фазу II

AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию

habr.com/ru/articles/964554/

#ai #аналитика_данных #фармацевтика #data_science #data_analysis #data_mining #искусственный_интеллект

Hacker Newsh4ckernews
2025-11-06

I scraped 3B Goodreads reviews to train a better recommendation model

book.sv

2025-11-05

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

habr.com/ru/articles/963410/

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

2025-10-22

Модель данных для успешного бизнеса: от простоты к компромиссам

История моделей данных — это не строгое следование хронологии, а путь нарастания сложности для решения всё более трудных задач. Чтобы понять, почему появились сложные модели, нужно начать с самой простой и интуитивно понятной из них. Это проведет нас от базовых структур к комплексным, позволит осознанно выбирать инструмент, понимая все предпосылки и компромиссы. «Широкие» таблицы Путь поиска баланса между простотой, производительностью и гибкостью начинался с «широких» (их также называют «плоских») таблиц, где вся информация хранится в единой структуре. Это была эпоха простоты: достаточно одного запроса — и все двести атрибутов пользователя оказывались у вас в руках. Процесс извлечения данных был быстрым и интуитивно понятным, поскольку обходился без сложных соединений и подзапросов. Однако у этой простоты обнаружилась обратная сторона — избыточность. Представьте, что данные о сотрудниках и их работодателях хранятся в одной таблице. Если компания меняет название, то необходимо обновлять каждую запись, которая связана с изменяемой информацией. Это не только расточительно с точки зрения хранения, но и чревато аномалиями в данных. Также при увеличении количества данных в «широких плоских» таблицах возрастает и риск нарушения консистентности информации.

habr.com/ru/companies/neoflex/

#модели_данных #data_analysis #data_science #ритейл #стартап #научная_работа

2025-10-13

Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации

Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀 Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0 , новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!

habr.com/ru/companies/monq/art

#monq #монк #мониторинг #observability #sre #devops #поддержка_клиентов #lowcode #nocode #data_analysis

2025-09-14

Polars — «убийца Pandas» на максималках

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными. В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

habr.com/ru/articles/946788/

#polars #pandas #data_engineering #data_science #data_analysis #dataframe #library #python #rust #dataset

2025-08-09

Вебинары трека Наука о данных Летней цифровой школы Сбера

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

habr.com/ru/articles/935564/

#машинное_обучениe #искусственный_интеллект #data_science #data_analysis #ai #artificial_intelligence #ии #нейросети #нейронные_сети #глубокое_обучение

2025-08-06

РосНОУ повысил свои позиции в рейтинге вузов-лидеров ИИ

Альянс в сфере искусственного интеллекта опубликовал третий ежегодный рейтинг российских университетов, готовящих специалистов для ИИ-отрасли. В этом году в список вошли 203 вуза из 68 регионов страны.

habr.com/ru/articles/934646/

#высшее_образование #рейтинги_вузов #российский_новый_университет #itтехнологии #подготовка_кадров #образовательные_программы #образовательные_ресурсы #data_engineering #data_analysis #data_scientist

2025-07-16

Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе

До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n , и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.

habr.com/ru/articles/928038/

#n8n #n8n_шаблоны #n8n_установка #cad #bim #data_analysis #etl #etlпроцессы #pipeline #lowcode

2025-07-11

Краткий обзор платформы данных Т-Банка

Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy! Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа. В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления.

habr.com/ru/companies/tbank/ar

#data #data_analysis #data_platform #data_engineering #architecture

2025-06-05

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

habr.com/ru/companies/oleg-bun

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

2025-05-29

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы. В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение. В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

habr.com/ru/companies/avito/ar

#M42 #bigdata #clickhouse #python #data_analysis #data_engineering #data_structures #storage #adhocанализ #adhoc

2025-05-12

Как пройти собеседование: опыт аналитика Яндекс Лавки

Привет, Хабр! Меня зовут Рафаэль Сайфутдинов, но обычно меня зовут просто Раф. Я работаю аналитиком ценообразования в Яндекс Лавке, выпускаюсь из НИУ ВШЭ и уже успел пройти курс

habr.com/ru/companies/yandex_p

#аналитика #аналитик_данных #анализ_данных #data_analysis

2025-04-25

Full-stack в аналитике: почему это будущее Data Science?

Привет. Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:

habr.com/ru/articles/904376/

#data_science #data_analysis #python #бекенд #фронтенд #ml #javascript

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst