#Data_Warehouse

2025-12-24

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов ? Ответ: фундаментально изменилась парадигма хранения и обработки данных. В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур. Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

habr.com/ru/companies/cinimex/

#lakehouse #data_lakehouse #delta_lake #iceberg #otf #data_warehouse #data_lake #архитектура_данных #управление_данными #data_governance

2025-11-18

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz. Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

habr.com/ru/articles/967736/

#dwh #data_warehouse #data_engineering #корпоративное_хранилище_данных #кхд

2025-10-28

Есть ли гидравлический насос на складе у партнера? Объединили данные в КХД на базе DATAREON Platfrom

На связи Сергей Скирдин, технический директор ИТ-интегратора «Белый код». Рассказываю о проекте, в котором мы реализовали корпоративное хранилище данных (КХД) на базе DATAREON Platform для компании, занимающейся поставками дорожно-строительной техники и запчастей.

habr.com/ru/companies/w_code/a

#datareon #интеграционная_платформа #интеграционные_решения #esb #шины_данных #кхд #корпоративное_хранилище_данных #dwh #Data_Warehouse

2025-10-22

Как использовать Clickhouse без боли

ClickHouse — одна из самых популярных систем для анализа данных. По информации TheirStack, этот инструмент использует более 3 700 компаний по всему миру. У ClickHouse быстрая аналитика, эффективное сжатие и отличное масштабирование. Но у системы есть и недостатки — ограниченная поддержка UPDATE и DELETE, а также сложная миграция. Привет, Хабр! Меня зовут Михаил Филимонов, я руковожу разработкой хранилища данных в группе Магнит OMNI. В этой статье я расскажу о проблемах работы с ClickHouse, как их решать и какие инструменты для этого потребуются.

habr.com/ru/companies/magnit/a

#clickhouse #магнит #big_data #data_engineering #data_warehouse #highload #базы_данных

2025-09-05

Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.

habr.com/ru/articles/944284/

#data_warehouse #dwh #airflow #dagster #оркестрация #оркестратор #data_engineering

2025-08-28

[Перевод] Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.

habr.com/ru/articles/941588/

#starrocks #материализованные_представления #lakehouse #lakehouseплатформа_данных #data_lake #data_warehouse #ускорение_запросов #инкрементальные_бэкапы #hive #iceberg

2025-08-16

WAP паттерн в data-engineering

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

habr.com/ru/articles/937738/

#data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

2025-08-08

Разработа DWH с нуля – особенности архитектуры

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчетности и аналитики. В статье расскажу, как мы выстроили архитектуру DWH, какие подходы использовали на каждом уровне, с какими подводными камнями столкнулись и как обеспечили стабильную поставку данных для аналитики.

habr.com/ru/articles/935212/

#dwh #data_warehouse #архитектура_dwh #разработка_хранилище_данных #bi #business_intelligence #корпоративное_хранилище_данных

2025-07-31

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

В современных условиях возрастает актуальность выгрузки данных из SAP ERP в хранилища данных DWH или Data Lakehouse сторонних вендоров. Интеграция с системами, не входящими в экосистему SAP, зачастую сопровождается сложностями: поставщики программного обеспечения, как правило, не поддерживают использование конкурентных продуктов. Нативный механизм выгрузки данных в SAP BW (Business Warehouse) не может быть применен к системам, не принадлежащим к экосистеме SAP. На нашем проекте внедрения хранилища данных на основе Arenadata DB для одного из крупных банков мы столкнулись со сложностями при интеграции с SAP S/4HANA. В статье рассматривается решение, которое позволяет быстро и надежно производить выгрузку больших объемов данных.

habr.com/ru/companies/sapiens_

#sap #sap_erp #data_warehouse #data_lakehouse #arenadata_db #интеграция

2025-07-23

[Перевод] 15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

habr.com/ru/companies/otus/art

#data_warehouse #хранилища_данных #sql #Аналитика_данных #ETL #OLAP #Data_Engineering #Data_Mining

2025-07-07

DWH без иллюзий. Три реальных кейса внедрения корпоративного хранилища в ритейле, производстве и госсекторе

Проект построения хранилища данных — это не просто внедрение технологий, а глубокая трансформация подходов к данным и аналитике, учитывающая текущее состояние процессов, стратегические цели, ресурсы и компетенции команды. Рассказываем про индивидуальный подход как основу успешного проекта DWH и делимся реальными кейсами внедрения: ✔️ Кейс 1. Свой коннектор к Oracle: когда Debezium подвел​ ✔️ Кейс 2. Миграция с Qlik: DWH между командами (в условиях командной фрагментации)​ ✔️ Кейс 3. Бюрократия против DWH: проект в около-госсекторе

habr.com/ru/articles/925652/

#dwh #data_engineering #data_warehouse #бизнесанализ #управление_проектами #big_data

2025-05-19

Максимизация производительности ScyllaDB

ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что написана на C++. Однако, несмотря на сверхбыструю скорость работы, можно ли сделать ее еще быстрее?

habr.com/ru/articles/910656/

#scylladb #nosql #cassandra #iot #bigdata #sql #dwh #storage #data_warehouse #no_sql

2025-05-16

Почему SCD Type 2 медленно работает в DWH, и как это чинится через Merge + Hash

Привет, Хабр! В этом статье рассмотрим, почему классическая реализация SCD Type 2 в DWH начинает жутко тормозить на миллионах строк и как с этим бороться при помощи комбинации MERGE + hash-diff.

habr.com/ru/companies/otus/art

#dataengineer #dwh #SCD_Type_2 #Hashdiff #Big_Data_Processing #data_warehouse

2025-04-17

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами. Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

habr.com/ru/articles/901778/

#dwh #data_warehouse #ansible #ansible_playbook #ansible_roles #ansible_inventory #iac #devops

2025-01-27

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории . Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL. В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.

habr.com/ru/articles/876834/

#dwh #data_warehouse #data_lake #хранилище_данных #корпоративное_хранилище_данных #архитектура_данных #базы_данных #данные #data #data_engineering

2024-09-26

Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH). Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных. Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.

habr.com/ru/articles/846296/

#dwh #data_warehouse #data_lake #data_lakehouse #data_mesh #data_fabric #хранилище_данных #кхд #корпоративное_хранилище_данных #архитектура_данных

2024-08-08

Как правильно использовать большие данные: строим хранилища на MPP-СУБД

Немного контекста. · Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики. · Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах. · Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход. Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и Data Warehouse.

habr.com/ru/companies/mws/arti

#данные #MWS #Data_Warehouse #Data_Lake #Arenadata #субд

2024-04-22

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.

habr.com/ru/articles/809551/

#dwh #кхд #data_warehouse #корпоративное_хранилище_данных #субд #clickhouse

2024-04-12

Database, Data Warehouse и Data Lake: что это и когда следует использовать каждое?

Данных становится все больше. Важно уметь эффективно хранить и обрабатывать их для решения сложных бизнес-задач. Одним из первых шагов на пути к успешной стратегии является выбор технологии хранения, поиска, анализа и отчетности по данным. Как выбрать между базой данных, Data Warehouse и Data Lake? Рассмотрим ключевые различия и когда следует использовать каждое.

habr.com/ru/companies/smartup_

#данные #данные_приложения #data #базы_данных #data_engineering #data_warehouse #data_lake

2023-12-21

Big Data в облаке: строим доступное хранилище

За последние годы «большие данные» стали восприниматься более гибко и могут включать в себя объемы, которые ранее не рассматривались как «большие». При этом снизились затраты на хранение и обработку информации. Теперь инструменты работы с данными подобных масштабов доступны даже небольшим компаниям. Важно помнить, что работа в этом направлении включает в себя разнообразные вызовы, связанные с ограничениями оборудования, типами источников данных, сложностью анализа. Данные нужно правильно собирать, хранить и обрабатывать, а для этого нужно выстроить правильную инфраструктуру. Сегодня расскажем про решение, которое уменьшит неопределенность при работе с крупными данными и поможет максимально быстро построить с нуля удобную и недорогую систему для аналитических задач в вашей компании.

habr.com/ru/companies/cloud_mt

#объектное_хранилище #объектное_хранилище_s3 #s3 #big_data #Data_Warehouse #Data_Lake

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst