#data_quality

2025-12-22

Хроники тестирования Data Quality

В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡

habr.com/ru/companies/simbirso

#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum

2025-10-29

DataHub не заменил наш самописный дата-каталог — и это нормально. Оптимизируем работу с метаданными

В Островке мы строим экосистему вокруг данных — от хранилищ и пайплайнов до систем мониторинга и каталогов. Но когда всё только начиналось, под часть наших процессов просто не существовало готовых решений. Так появился наш собственный дата-каталог DataPortal — лёгкий, быстрый и идеально подходящий для небольшой компании. Со временем всё изменилось: объём данных вырос в десятки раз, появились новые команды, и вместе с этим начали звучать вопросы вроде «где лежат данные для этого дашборда?», «кому писать, если он упал?» и «можно ли этим данным доверять?». Так мы поняли, что пора взрослеть — и искать инструмент, который поможет масштабировать не только инфраструктуру, но и дата-культуру . Мы выбрали DataHub — open-source каталог, обещавший прозрачность, автоматизацию и гибкость. Развернули, подключили источники, построили lineage, и даже порадовались, что всё заработало с первого раза. А потом стало ясно: DataHub не заменил наш DataPortal. Более того, оба инструмента отлично дополнили друг друга — инженерное ядро и удобное окно в данные для бизнеса. Почему два дата-каталога оказались лучше одного, как это повлияло на культуру работы с данными и что нам дал DataHub помимо красивых графов lineage — рассказываем под катом.

habr.com/ru/companies/ostrovok

#датакаталог #datahub #управление_данными #data_quality #метаданные

2025-08-16

WAP паттерн в data-engineering

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

habr.com/ru/articles/937738/

#data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

2025-07-28

Как меняется рынок и зачем нужны конференции по Ai

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии.

habr.com/ru/companies/oleg-bun

#конференция #ai #ии #ииассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llmмодели

2025-06-20

Путь к современному MDM на примере клиентского домена данных

Путь к современному MDM на примере клиентского домена данных Привет, Хабр! На связи команда российского вендора Data Sapience . Наши специалисты в течение многих лет занимались внедрением и адаптацией различных ИТ-решений, в том числе MDM-систем: как российских, так и зарубежных. Объединив накопленные знания, мы выпустили собственный высокопроизводительный мультидоменный продукт Data Ocean Governance MDM . Data Sapience стремилась сделать Data Ocean Governance MDM гибким, комфортным и производительным решением, поэтому внимательно изучала рынок и его потребности. Сегодня хотим поделиться с вами результатами анализа и порассуждать, зачем MDM-решения нужны современному бизнесу, какую роль они выполняют и какие задачи закрывают на примере клиентского домена данных.

habr.com/ru/companies/datasapi

#mdm #знай_своего_клиента #качество_данных #data_quality #готовое_решение #собственная_разработка #золотая_запись #Мастерзаписи #клиентские_данные

2025-05-29

Nocode с MWS Tables: кейсы объединения разных команд в одном пространстве, системы выдачи пропусков и геймификации

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Современный бизнес требует быстрых и эффективных решений для управления проектами, задачами и данными. И далеко не всегда есть возможность разрабатывать с нуля сложные системы или интегрировать дорогостоящий софт. Именно для таких случаев создан

habr.com/ru/companies/ru_mts/a

#tabs #lowcode #nocode #программирование #прототипирование #проектирование_систем #управление_проектами #управление_продуктами #data_quality #качество_данных

2025-04-14

Как я оставила печати и взяла SQL: путь к Data Quality

Привет, Хабр! Когда-то я проверяла завещания и готовила доверенности, а теперь проверяю витрины данных, ищу дубли и считаю доходность по инвестиционным инструментам. Меня зовут Арина Шахтарина, и я — Data Quality-инженер в Сбере. Это история о том, как любовь к данным и таблицам превратилась в новую профессию, и почему SQL — лучший универсальный язык после русского. Тут будет про карьерные повороты, боли с форматами данных, проверки данных и немного про мечты, которые сбываются (даже если ты не в отпуске).

habr.com/ru/companies/oleg-bun

#качество_данных #dq #data_quality #пайплайн #коммуникации #bi #sql #бизнеслогика #базы_данных #Data_Internals

2025-04-09

Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!» «Нам нужны качественные данные, а вы все про свои процессы!» «Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!» Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы. Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе: 1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу. 2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу. 3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня. Как же выстроить эффективный диалог между DG и бизнесом?

habr.com/ru/articles/899080/

#data_governance #data_management #data #управление_данными #data_quality #качество_данных #data_catalog #dwh

2025-04-03

Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables. Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов. Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.

habr.com/ru/companies/ru_mts/a

#lowcode #no_code #MWS_Tables #прототипирование #программирование #проектирование_систем #tabs #data_quality #качество_данных

2025-04-03

Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка. В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.

habr.com/ru/companies/gazpromb

#dq #python #airflow #superset #data_engineering #data_analysis #data_quality

2025-03-21

Управление качеством данных

Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье . Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных. Управление качеством данных - это постоянный процесс. Да, для начала неплохо разобраться с уже имеющимися данными, но наша задача сделать так, чтобы все новые данные, попадающие в систему, проверялись, валидировались, насыщались и, в итоге, соответствовали предъявляемым к ним требованиям. Управление качеством, кстати, является важной частью управления Нормативно-Справочной информацией, MDM (Master Data Management). Как же сделать так, чтобы данные попадали в системы уже "чистыми"? Думаю, что самый оптимальный способ - это правильно настроить поля ввода, не допуская ввод заведомо некорректный значений, а также предлагать автозаполнение по возможности: например, выбор адреса доставки предлагать из КЛАДР, а данные о компании автоматически заполнять используя специальные сервисы. Таким образом, и людям надо будет вводить меньше информации, и вероятность ошибки будет гораздо меньше.

habr.com/ru/articles/893158/

#data_engineering #data_quality #data_governance #качество_данных

2025-03-21

Качество данных простым языком

При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты "качества данных"? Есть! ISO/TS 8000 и даже соответствующий ГОСТ 56214. Что ж, читаем определения: 3.1.3 качество (quality): Степень соответствия совокупности присущих характеристик объекта требованиям (3.1.2). Примечания: 1 Термин "качество" может применяться с прилагательными, такими как "плохое", "хорошее" или "превосходное". Так. Хватит ГОСТов на сегодня. Итак, есть данные, у них есть качество - характеристика, показывающая степень пригодности данных к использованию, и которое может быть "плохим", "хорошим" или "превосходным". На самом деле, есть 7 основных качественных характеристики: точность, полнота, непротиворечивость, достоверность, своевременность, уникальность и доступность.

habr.com/ru/articles/893104/

#data_governance #data_engineering #data_quality #качество_данных

2024-12-01

Миф о чистых данных: почему ваш аналитик похож на сапёра

Миф о чистых данных: почему ваш аналитик похож на сапёра. Как бороться с самым частым убеждением при работе с данными.

habr.com/ru/articles/862772/

#данные #очистка_данных #витрина_данных #визуализация_данных #ошибки_в_бизнесе #подготовка_данных #бизнесаналитика #целостность_данных #обработка_данных #data_quality

2024-11-29

Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

Качество данных и его значение для среднего бизнеса. Что такое качество данных? Почему качество данных так важно для среднего бизнеса? Кто относится к среднему бизнесу в России? Основные риски низкого качества данных. Основные рекомендации по выбору решений.

habr.com/ru/articles/862476/

#Данные #mdm #mdmсистема #mdm_и_бизнесглоссарий #esb #data #базы_данных #data_quality #dq #datareon

2024-11-26

Доверяй, но проверяй: как мы в KION идем по пути продуктовых событий

Привет, Хабр! Меня зовут Алексей Жиряков, я техлид backend-команды витрины KION. Вместе с командой мы делаем один из самых технологических онлайн-кинотеатров. Этот текст написан по мотивам митапа Evrone: рассказываю, что такое продуктовые события и какими они бывают, зачем мы создали свой приемник событий и что нужно знать об уровнях Data Quality. Так что устраивайтесь поудобнее — и поехали!

habr.com/ru/companies/ru_mts/a

#kion #сервисы #онлайнкинотеатры #data_quality #управление_продуктом #облачные_сервисы

2024-11-01

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели. В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений. Рассказывать об этом опыте будет Александр Бергер , Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.

habr.com/ru/companies/sibur_of

#data_quality #data_analysis #soda #качество_данных_(data_quality) #data #сибур_цифровой #промышленность #heavy_digital #нефтехимия #заводы

2024-09-06

Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег

Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в консалтинге и разбираться с проблемами в других системах. Вот смотришь со стороны на ИТ-продукт: все классно и продумано, должно работать как часы. А потом спускаешься на уровень данных и хватаешься за голову: как же допустили такую ошибку? Ее можно было избежать, если задать пару вопросов на стадии проектирования. Зато теперь переделывать все чуть ли не с нуля и ждать возможности вписать изменения в какой-нибудь релиз. Красота! В этом посте я на основе своего и чужого опыта собрал несколько вредных советов, как не надо хранить историю, объединять данные из разных источников и отслеживать их качество. В общем, Если вы сломать решили всю отчетность у коллег, Обязательно зайдите в этой записи под кат!

habr.com/ru/companies/ru_mts/a

#data_quality #работа_с_данными #итпродукт #вредные_советы #жизненный_цикл_данных #хранение_данных #качество_данных #интеграция_данных

2024-07-10

От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере. В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.

habr.com/ru/companies/mvideo/a

#мвидео #эльдорадо #качество_данных #управление_данными #data_driven #data_driven_testing #data_quality #качество_данных_(data_quality) #разработка #данные

2024-06-29

Released 0.42.0 Changelog: github.com/SpeciesFileGroup/ta

Life, the Universe, Everything!

Well, not quite. More cloning features though, and ways to visualize "the universe" (of data). Better indexing synchronization, more API endpoints, more built in #data_quality. Update to #Rails 7. Less need for a #towel ( many bug fixes), better babelfish (email authentication means far less false-positive spam).

2024-06-28

Качество данных в М.Видео-Эльдорадо

Привет, Хабр! С середины 2023 года у нас в компании было принято решение открыть новое направление в области управления данными - «Качество данных». Вот почти уже год мы активно в нем развиваемся и хотели бы поделиться накопленным опытом. Надеемся, что данный материал будет вам полезен.

habr.com/ru/companies/mvideo/a

#мвидео #эльдорадо #данные #хранение_данных #качество_данных #DQ #data_quality

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst