#olap

2026-01-29

In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
vorstellen.
DuckDB (duckdb.org) könnte Euch dann interessieren wenn ihr:

- in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
- privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
- Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt

DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.

Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.

Beispiel:
1. Zelle:
-- Datenbank im Speicher anlegen
ATTACH IF NOT EXISTS ':memory:' AS memory;

2.Zelle:
-- Tablle BLS 4.0 importieren
CREATE OR REPLACE TABLE BLS AS
SELECT * FROM
read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
sheet = 'BLS_4_0_Daten_2025_DE',
header = true, all_varchar = true);

3. Zelle
-- Zeige mir Lebensmittel mit Vitamin D
select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
from'BLS'
where
VD is not null and VD not ilike '0'
order by VD DESC;

Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
😀

DuckDB Notebook mit Anmerkung zum "Download" der Ergebnisse
GripNewsGripNews
2026-01-21

🌘 深入解析 StarRocks:為何 JOIN 操作比你想像中更快
➤ 透過成本基礎優化器與分散式執行策略,顛覆傳統 OLAP JOIN 效能瓶頸
starrocks.io/blog/inside-starr
本文深入探討 StarRocks 如何透過成本基礎優化器(CBO)與分佈式執行策略,大幅提升 JOIN 操作效能。相較於許多 OLAP 系統因 JOIN 效能瓶頸而被迫進行反正規化(Denormalization),StarRocks 選擇保持資料正規化並優化 JOIN 速度。文章詳細剖析了 JOIN 優化面臨的挑戰,包括多種 JOIN 策略的選擇、多表 JOIN 的順序排列、執行效果的預測難度,以及分散式環境下的最佳化難題。接著,文章闡述了 StarRocks 在邏輯層面(如 JOIN 類型轉換)與物理層面(如 JOIN 重排序與分散式規劃)的具體技術手段,並佐以 NAVER、Demandbase 及 Shopee 的實戰

N-gated Hacker Newsngate
2026-01-21

StarRocks to the rescue! 🚀 Apparently, the world was too busy having a mental breakdown over to realize that has some secret sauce that makes them faster than a cat meme's rise to fame. 😂 But hey, who cares about real solutions when we can just keep denormalizing everything into oblivion, right? 🙄
starrocks.io/blog/inside-starr

2026-01-07

Как JOIN изменил наш подход к инфраструктуре данных в NAVER

После миграции с ClickHouse на StarRocks NAVER существенно оптимизировала обработку многотабличных JOIN. StarRocks повысил производительность запросов, обеспечил бесшовное масштабирование и позволил построить единый слой запросов, совместимый с множеством источников данных. Эти улучшения позволили предоставлять инсайты в реальном времени и поддерживать принятие решений на основе данных во всей экосистеме NAVER.

habr.com/ru/articles/983356/

#StarRocks #ClickHouse #Apache_Iceberg #Lakehouse #JOIN #OLAP #Kubernetes #материализованные_представления #federated_analytics #аналитика_в_реальном_времени

2026-01-07

Инструмент перехвата медленных запросов StarRocks

Практическое руководство по построению сервиса перехвата медленных запросов в StarRocks: правила kill и пороги (full table scan, scan rows/bytes), анализ execution plan, интеграции с Grafana и Feishu, SQL-схемы и YAML-конфигурация для продакшена.

habr.com/ru/articles/983314/

#StarRocks #медленные_запросы #slow_query #OLAP #MPP #full_table_scan #execution_plan #stream_load #Grafana

2026-01-06

Khi nào nên dùng cơ sở dữ liệu cột (columnar database)? Khi làm việc với truy vấn phân tích (OLAP), lượng dữ liệu lớn và cần hiệu suất cao. Columnar DB tận dụng vectorization, lưu trữ tuần tự và tối ưu bộ nhớ giúp truy vấn nhanh hơn. Phù hợp cho báo cáo, BI và phân tích dữ liệu chứ không phải giao dịch (OLTP). #ColumnarDatabase #OLAP #DataEngineering #CSDLcột #PhânTíchDữLiệu #BigData

reddit.com/r/programming/comme

2025-12-25

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

habr.com/ru/articles/980392/

#ETL #Apache_Flink #Apache_Kafka #MongoDB #PostgreSQL #MySQL #Oracle #Microsoft_SQL_Server #OLAP

2025-12-25

Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

habr.com/ru/articles/980368/

#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

2025-12-25

Глубокий разбор материализованных представлений в StarRocks: полный механизм query rewrite

Материализованные представления (MV) в StarRocks — это не просто кэш агрегатов, а полноценный механизм ускорения запросов с автоматическим переписыванием (query rewrite). На практических примерах разбираем, как движок сопоставляет поддеревья плана запроса со SPJG‑MV, как работают join/aggregate/nested/union rewrite, как обеспечивается строгая согласованность и настраиваемая устарелость данных (staleness), и за счёт чего достигается ускорение на SSB и TPC‑H.

habr.com/ru/articles/980320/

#StarRocks #материализованные_представления #query_rewrite #SPJG #OLAP #BI #rollup #bitmap #predicate_pushdown #partition_pruning

2025-12-24

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.

habr.com/ru/articles/980134/

#olap #starrocks #routine_load #etl #kafka #streaming #sql #data_engineering

Miha Markičmihamarkic
2025-12-19

Does anybody have any idea how would somebody access cube on through http but with custom authentication. There is incredibly rigid msmdpump.dll which offers only Basic auth which is again rigid when you are dealing with non-windows users. Urgh.

2025-12-10

LangGraph + Cursor CLI + MCP для автоматической генерации документации: кейс из BI-аналитики

Как автоматизировать создание технической документации для сотен мер в OLAP-проекте? Рассказываю про систему, которая связывает LangGraph, MCP-сервер и Cursor CLI в единый конвейер генерации спецификаций. Агент извлекает список мер через локальную LLM (с фалбэком на regex), последовательно обрабатывает каждую через циклический граф состояний и автоматически трассирует поток данных от Power BI мер через DWH представления до хранимых процедур. Практический кейс из BI-аналитики: от 15-20 минут ручной работы на меру до полной автоматизации. В статье — эволюция архитектуры от простого MCP-сервера до продакшн-решения с детальным логированием каждого шага. GitHub репозитории прилагаются.

habr.com/ru/articles/975178/

#LangGraph #MCP #Cursor_CLI #AIагент #автоматизация_документации #OLAP #BIаналитика

2025-12-05

Отчетность в Платформе «Форсайт»: вчера, сегодня, завтра

Привет. Меня зовут Евгений, и я продуктовый менеджер направления отчетности и визуализации данных в компании «Форсайт». Хотя корпоративная «Форсайт. Аналитической платформа» (далее просто Платформа) имеет в своем арсенале большое число различного инструментария, на мой взгляд, именно инструменты отчетности фактически являются ключевым блоком и «лицом» Платформы и BI-приложений, реализованных на ее основе. Ведь это первое, c чем сталкивается конечный пользователь и на что обращает внимание при работе: наличие необходимых функций, удобство построения пользовательского интерфейса, скорость работы — все это пользователи часто записывают именно на счет компонентов отчетности. Хочу поделиться с вами нашей «вендорской» историей от том, как развивался инструментарий отчетности в составе нашей Платформы, какие интересные компоненты появились у нас относительно недавно, и над чем новым «Форсайт» работает прямо сейчас. Итак, начинаем!

habr.com/ru/companies/fsight/a

#bi #qlik_sense #история_развития #tableau #форсайт #olap #prognoz_platform #дашборды #ad_hoc #data_discovery

2025-12-04

От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.

habr.com/ru/articles/973230/

#StarRocks #ClickHouse #OLAP #разделение_хранения_и_вычислений #Apache_Flink #Kafka #Compaction #MergeCommit #DataCache

2025-12-04

StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.

habr.com/ru/articles/973166/

#StarRocks #FlatJSON #JSON #OLAP #Global_Dictionary #Late_Materialization #dictionary_encoding #realtime_analytics

2025-11-27

Понимание и практические эксперименты с Tablet в StarRocks

внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.

habr.com/ru/articles/970880/

#StarRocks #Tablet #OLAP #MPP #репликация #балансировка #бакетизация #партиционирование #MVCC #Stream_Load

2025-11-26

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

habr.com/ru/articles/970388/

#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH

2025-11-18

Полное руководство по управлению привилегиями в StarRocks

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

habr.com/ru/articles/967608/

#starrocks #привилегии #роли #rbac #grant #revoke #olap #mpp #dwh #безопасность_данных

2025-11-14

[Перевод] Сверхбыстрые запросы: принципы Compaction при разделении хранения и вычислений в StarRocks и руководство по тюнингу

StarRocks при каждом импорте данных создаёт новую версию, что со временем приводит к росту числа мелких файлов и падению эффективности запросов. Фоновый процесс Compaction объединяет версии, устраняет дубликаты и сокращает количество I/O. В материале разобраны: архитектура Compaction в режиме разделения хранения и вычислений (FE — Scheduler, BE/CN — Executor), диспетчеризация по Partition и Tablet, критерии безопасной очистки данных, а также практики тюнинга. Показано, как смотреть Compaction Score на уровне Partition, отслеживать и отменять задачи, и какие параметры FE/BE/CN действительно влияют на производительность (compact_threads, lake_compaction_max_tasks и др.). Отдельно затронут мониторинг и алерты в Grafana/Prometheus. Текст ориентирован на инженеров DWH/OLAP и эксплуатацию высоконагруженных систем хранения данных.

habr.com/ru/articles/966322/

#starrocks #lakehouse #olap #тюнинг #мониторинг #grafana #prometheus

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst