#data_analysis

2025-06-05

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

habr.com/ru/companies/oleg-bun

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

2025-05-29

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито . Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы. В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение. В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

habr.com/ru/companies/avito/ar

#M42 #bigdata #clickhouse #python #data_analysis #data_engineering #data_structures #storage #adhocанализ #adhoc

2025-05-12

Как пройти собеседование: опыт аналитика Яндекс Лавки

Привет, Хабр! Меня зовут Рафаэль Сайфутдинов, но обычно меня зовут просто Раф. Я работаю аналитиком ценообразования в Яндекс Лавке, выпускаюсь из НИУ ВШЭ и уже успел пройти курс

habr.com/ru/companies/yandex_p

#аналитика #аналитик_данных #анализ_данных #data_analysis

2025-04-25

Full-stack в аналитике: почему это будущее Data Science?

Привет. Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:

habr.com/ru/articles/904376/

#data_science #data_analysis #python #бекенд #фронтенд #ml #javascript

2025-04-25

Контролируем качество данных с помощью Python

В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.

habr.com/ru/companies/otus/art

#qa #data_analysis #качество_данных #аналитика_данных #Python_для_анализа_данных #pandas #Pyspark #Очистка_данных #Аномалии_в_данных

2025-04-03

Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.

habr.com/ru/companies/gazpromb

#dq #python #airflow #superset #data_engineering #data_analysis #data_quality

2025-04-01

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства. Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов. Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем. В статье расскажу, как мы решаем эту задачу.

habr.com/ru/companies/hflabs/a

#качество_данных #стандартизация #ругательства #персональные_данные #mdm #data_analysis #data_governance #алгоритмы

2025-03-28

Байесовская собака: анализ пёсьего компаса

Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику и собаку (собака не включена), то добро пожаловать под кат.

habr.com/ru/articles/895332/

#python #data_analysis #bayesian #tutorial #dog #pymc3

2025-03-17

Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata

Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB. В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных. Что там с нагрузкой на кластер?

habr.com/ru/companies/arenadat

#arenadata_db #оптимизация_базы_данных #etl #высоконагруженные_системы #highload #партиционирование #аудит #data_analysis #базы_данных #аналитические_базы_данных

2025-03-16

Logit Lens & ViT model: туториал

Привет, Хабр! В этом туториале разобран метод для анализа внутренних представлений "логит-линза" (Logit Lens). В результате практики по туториалу, вы: 1. Изучите подход и концепцию Logit Lens; 2. Реализуете Logit Lens для Visual Transformer; 3. Познакомитесь с анализом результатов применения логит-линзы. Как всегда, весь код будет на гитхаб — step by step. Welcome!

habr.com/ru/articles/891352/

#explainable_ai #data_science #data_analysis #transformers

2025-03-11

Неизвестный библейский алгоритм кластеризации

Времена, когда горящий куст мог принести озарение, давно прошли. Примитивный опыт уже не может стать источником открытий. А всё потому, что он обобщён и впитан в культуру человечества. И чтобы подключиться к мудрости предков нужно опереться на философию. В этой статье мы познакомимся с новым алгоритмом кластеризации и поверхностно затронем некоторые философские категории. Перевернём объективность в субъектность и обратно.

habr.com/ru/articles/890050/

#кластеризация #философия #data_science #data_analysis

2025-03-10

Python для начинающих дата-аналитиков: как настроить виртуальное окружение?

Привет! Меня зовут Женя и я работаю аналитиком данных. В этой статье я бы хотел рассказать начинающим аналитикам о том, как правильно настроить окружение для работы с Python. Когда я только начинал заниматься анализом данных, концепция питоновского виртуального окружения вводила меня в ступор, и здесь я постараюсь показать, что в ней нет ничего сложного.

habr.com/ru/articles/889670/

#venv #pip #data_analysis #uv #pandas #jupyter_notebook #python

2025-02-06

Boxplot, он же ящик с усами

Представьте, что вам нужно быстро сравнить распределения зарплат сотрудников разных отделов или оценить разброс результатов эксперимента. В таких ситуациях отличным выбором будет boxplot, он же “ящик с усами” – эффективный инструмент для выявления ключевых характеристик распределения, позволяющий быстро оценить медиану, разброс данных и обнаружить выбросы. В этой статье мы подробно разберем, что такое boxplot и почему его называют “ящиком с усами”.

habr.com/ru/articles/879840/

#python #анализ_данных #data_analysis #визуализация_данных #data_visualization #boxplot #ящик_с_усами #machine_learning #машинное_обучение #статистика

RedPacket SecurityRedPacketSecurity
2025-02-04
2025-01-16

Data-driven культура и подход по версии аналитика

Привет! Я работаю в аналитике и с данными уже 13+ лет. Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет. И очень разные интерпретации этого явления встречал. Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven. Хочу рассказать о том, какой data-driven = хорошо , а какой != хорошо . Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на "одном языке".) != хорошо Это когда PM, PO, CIO и даже CTO, роли, задачи которых развивать бизнес (дальше буду называть эти роли "бизнесом"), не используют в работе цифры, полагаясь на экспертные мнения или оценки. При этом цифры могут быть и использоваться для чего-то ещё. Например, для того, чтобы косвенно отслеживать работоспособность продукта - тоже неплохой вариант для аналитики, но, думаю, лучше работать с повышением качества тестирования продукта. Индикаторы того, что вы работаете в компании с плохим вариантом интерпретации data-driven:

habr.com/ru/articles/874206/

#datadriven #принятие_решений #data_analysis #data

2024-12-06

Документация, которая точно не навредит аналитике в Вашем проекте

Привет! Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал «всякое» в плане работы с документацией для команды, которая работает с данными. Хочу поделиться своим опытом того, что «маст хев» в документации в Вашем проекте, когда есть планы вроде «make analysis great [again]». Нука-нука!

habr.com/ru/articles/864512/

#документация_это_легко #аналитика_данных #data_analysis #data_engineering #метаданные

2024-12-06

Бизнес-визуализации или графики, которые недооценивают. Часть I

Расскажу я вам о способах визуализации данных, которые помогают бизнесу быстро оценивать информацию и принимать обоснованные решения. Постараюсь объяснить теоретические аспекты и продемонстрировать на практическом примере. Донести плюсы и минусы этих визуализаций.

habr.com/ru/articles/864370/

#продуктовый_дизайн #визуализация_данных #диаграмма #data_analysis #product_design

2024-12-03

Как СИБУР заменил иностранное ПО за три месяца: кейс создания RTO-модели для производства этилена и пропилена

Когда иностранные вендоры приостановили работу в России, под угрозой оказалось внедрение систем на производстве этилена и пропилена. Без критически важного программного обеспечения Spyro производство могло столкнуться с серьёзными экономическими потерями. Я, Вячеслав Базанов, руководитель проекта, и моя команда инженеров и аналитиков из Цифрового СИБУРа взялись за разработку собственной модели прогнозирования. Это был вызов по масштабу и срокам, но мы справились и за три месяца создали решение, которое не только заменило прежнюю систему, но и улучшило её эффективность. Добро пожаловать под кат — расскажу, как мы это сделали.

habr.com/ru/companies/sibur_of

#rto #оптимизация #моделирование #realtime_optimization #python #heavy_digital #производство #data_science #data #data_analysis

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst