#dwh

2025-12-25

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Последний раз мы подробно писали о нашей платформе почти четыре года назад — в статье «Эволюция хранилища данных в Авито» . С тех пор аналитическая платформа сильно изменилась — и по масштабу, и по сложности.

habr.com/ru/companies/avito/ar

#dwh #trino #vertica #mpp #аналитическая_платформа

🅱🅸🅶🅾🆁🆁🅴.🅾🆁🅶bigorre_org
2025-12-21

Aviation weather for David Wayne Hooks Memorial airport in Houston area (USA) is “SPECI KDWH 211607Z 18004KT 7SM BKN012 24/21 A3015 RMK AO2 T02440206” : See what it means on bigorre.org/aero/meteo/kdwh/en vl

2025-12-19

Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench

В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench. ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом - «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.

habr.com/ru/companies/datasapi

#clickhouse #starrocks #trino #impala #bigdata #dwh #s3 #bi

2025-12-15

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

Привет, Хабр! На связи — технические лидеры направления разработки Apache Spark в составе платформы Data Ocean Андрей Первушин и Дмитрий Паршин из Data Sapience . Мы занимаемся решением нетривиальных задач в области Spark-вычислений, некоторые из которых становятся частью конечного продукта. Сегодня мы расскажем, с какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg, что такое equality delete, почему они создают нагрузку при чтении таблиц в Apache Iceberg и как мы оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.

habr.com/ru/companies/datasapi

#spark #iceberg #lakehouse #dwh #spark_streaming

2025-12-15

Flink Kubernetes operator: опыт построения стриминговой Big Data платформы

Всем привет! Меня зовут Артемий, я работаю SRE-инженером в команде RTP (real time processing) Clickstream в Авито . Сегодня мы хотим поделиться нашей историей о том, как мы переехали в Kubernetes, развернув Apache Flink с помощью Flink k8s operator.

habr.com/ru/companies/avito/ar

#data #dwh #DataOps #bigdata #flink #sql #realtime #analytics #analytical_engine

2025-12-12

Нагрузочное тестирование YMatrix

Привет, Хабр! На связи Марк — ведущий архитектор группы компаний «ГлоуБайт». Сегодня мы немного расширим результаты нагрузочного тестирования из предыдущей статьи “ Нагрузочное тестирование GP6 vs GP7 vs Cloudberry ” и поделимся результатами тестирования YMatrix. Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше.

habr.com/ru/companies/glowbyte

#нагрузочное_тестирование #sql #posgresql #dwh #gp7 #gp6 #ymatrix #glowbyte #cloudberry #tpcds

2025-12-08

Выбор российского ETL-инструмента в 2025 и чек-лист

Привет! Перед вами новое исследование, посвящённое одной из ключевых технологий управления данными — процессам извлечения, преобразования и загрузки данных (ETL) . Оно стало логическим продолжением первого обзора рынка ETL-решений, выпущенного нашей командой три года назад. За это время многое изменилось. Если в 2022-м рынок опирался на зарубежные платформы, то сегодня акценты сместились в сторону отечественных продуктов. Причины очевидны: уход иностранных вендоров, трудности с продлением лицензий, обновлениями и поддержкой. Импортозамещение из формальности превратилось в стратегическую задачу, а потребность в надёжных российских инструментах — в вопрос технологической безопасности. Одновременно усилились и глобальные вызовы: рост объёмов данных, переход бизнеса к моделям прогнозной аналитики и управлению на основе данных. ETL-системы в этой экосистеме занимают фундаментальное место — именно они превращают разрозненные источники в согласованный поток информации, на котором строятся аналитика, модели машинного обучения и управленческие решения.

habr.com/ru/articles/974502/

#ETL #extract #transform #load #загрузка_данных #dwh #хранилище_данных #слои_данных

2025-11-28

Как автоматизировать загрузку данных в DWH и не сойти с ума

Привет! Меня зовут Андрей, я Data Engineer в компании GRI. Мы занимаемся заказной разработкой, и один из наших ключевых клиентов — Sunlight. Я расскажу, как не тратить время на рутину в процессах и автоматизировать всё, что только можно. Это будет особенно актуально тем, кто в компании solo Data Engineer.

habr.com/ru/companies/gri/arti

#dwh #etl #airflow #clickhouse #автоматизация #кхд #GRI

2025-11-26

Как в Авито обеспечивают self-service разработки и деплоя витрин

Привет! Меня зовут Николай Огоров, я Big Data-инженер в Авито . В этой статье я и мой коллега Айк Оганесян расскажем, как обеспечили пользователей инструментами, которые дают им возможность самим создавать витрины в хранилище Авито без привлечения специалистов. Эта история больше про подходы, решения и философию, которые позволяют жить в парадигме, когда потребностей на создание объектов DWH стало сильно больше, чем возможностей Data-инженеров.

habr.com/ru/companies/avito/ar

#dwh #selfservice #авито #avito #avitotech #витрины_данных

2025-11-26

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

habr.com/ru/articles/970388/

#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH

2025-11-18

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz. Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

habr.com/ru/articles/967736/

#dwh #data_warehouse #data_engineering #корпоративное_хранилище_данных #кхд

2025-11-18

Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

habr.com/ru/articles/967608/

#starrocks #привилегии #роли #rbac #grant #revoke #olap #mpp #dwh #безопасность_данных

2025-11-14

Как стартовать с Data Lakehouse и перейти на Data Lake

В статье Архитектура высоконагруженной платформы Magnit F&R было рассказано о ключевых архитектурных принципах и решениях. Сегодня хочу поделиться практическим опытом: как в Magnit Tech изменилась концепция Data Lakehouse, где она блестяще сработала — и где подвела. Я, Алексей Соболеков, лид архитектуры F&R. И это история о том, как красивая теория сталкивается с физикой доступа к данным.

habr.com/ru/companies/magnit/a

#magnit_tech #Trino #ClickHouse #Data_Lakehouse #DWH #ритейл #архитектура_системы

2025-11-07

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

habr.com/ru/companies/datasapi

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

2025-10-28

Есть ли гидравлический насос на складе у партнера? Объединили данные в КХД на базе DATAREON Platfrom

На связи Сергей Скирдин, технический директор ИТ-интегратора «Белый код». Рассказываю о проекте, в котором мы реализовали корпоративное хранилище данных (КХД) на базе DATAREON Platform для компании, занимающейся поставками дорожно-строительной техники и запчастей.

habr.com/ru/companies/w_code/a

#datareon #интеграционная_платформа #интеграционные_решения #esb #шины_данных #кхд #корпоративное_хранилище_данных #dwh #Data_Warehouse

2025-10-23

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

habr.com/ru/companies/datasapi

#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3

2025-10-22

Как мы в Skyeng построили свою мультитач-атрибуцию, чтобы больше не ругаться из-за заявок

Всем привет! Меня зовут Анастасия Козлова, я Senior BI Analyst в маркетинге Skyeng. Сегодня хочу рассказать, как мы научились справедливо оценивать вклад каждого рекламного канала с помощью кастомной мультиканальной модели атрибуции, что нас к этому подтолкнуло и как мы её настроили технически.

habr.com/ru/companies/skyeng/a

#маркетинговая_аналитика #анализ_трафика #атрибуция_каналов_в_маркетинге #dwh #last_click #bi_аналитика

🅱🅸🅶🅾🆁🆁🅴.🅾🆁🅶bigorre_org
2025-10-13

How many runways can you see for David Wayne Hooks Memorial airport in Houston area (USA) ? : The answer is on bigorre.org/aero/meteo/kdwh/en vl

2025-10-11

GigAPI — это лёгкий «тайм-серии-лейкхаус» на базе DuckDB + Parquet с FDAP-стеком

Если вы когда-нибудь собирали аналитику по кликам, метрикам или логам, то знаете цену вопроса: хочется SQL за миллисекунды , хранение в дёшёвом объектном хранилище , минимум «танцев» с кластером и—если повезёт—MIT-лицензию без ловушек. На одном берегу — «тяжёлые» распределённые OLAP-системы (ClickHouse, Pinot, Druid), на другом — специализированные TSDB (InfluxDB, TimescaleDB, QuestDB). Между ними набирает силу «озёрный» подход: складывать сырые события в Parquet , а считать — встраиваемым движком с Arrow/FlightSQL поверх. GigAPI как раз из этой когорты: DuckDB + Parquet , чтение из локального диска или S3 , запросы через FlightSQL (gRPC) и HTTP , режимы writeonly/readonly/compaction , один контейнер для старта и понятная философия «делай просто, делай быстро». Проект обещает суб-секундные аналитические запросы , компактизацию и дружбу с FDAP-миром (Arrow/DataFusion/Parquet/Flight) — всё то, что нравится инженерам, уставшим от «зоопарков» сервисов.

habr.com/ru/articles/955560/

#duckdb #timeseries #dwh

2025-09-12

Сквозь эпохи: от хаоса к гармонии, или как мы запросы в Greenplum улучшали

Привет, Хабр! Я Илья Назаров, старший инженер в разработке сервисов направления эксплуатации инфраструктуры данных DataPlatform Т-Банка. В работе я часто соприкасаюсь с движками баз данных. Первым и основным движком волею судеб стал Greenplum. Расскажу о своем длинном пути взаимодействия с «Зеленой сливой», как из хаоса и невежества я дошел до истины и гармонии. В начале карьеры меня много чего удивляло. Тогда я еще не знал, что такое Greenplum,и плохо понимал, что такое MPP. Позднее коллеги на пальцах объяснили мне, что это «постгрес курильщика» и «постгрес поверх кучи постгресов». Не менее удивительны для меня процессы. Например, процесс деплоя. Именно тогда я узнал, что в большом продакшене может быть деплой через правку SSH-скриптов на серверах. В целом ситуация выглядела страшно интересно: скрипты, процессы деплоя и работы над задачами — все было в новинку. С одной стороны, большой багаж исторически сформированных до меня решений, с другой — большой уровень свободы и минимум ограничений, что как раз и способствовало постоянному росту энтропии и хаоса. Практически сразу я ощутил желание навести во всем порядок. А что из этого получилось — читайте в статье 😉

habr.com/ru/companies/tbank/ar

#dwh #sql #sre #devops #bigdata #greenplum

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst