Lmst

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле. Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок Хочу, чтобы подгорело

https://habr.com/ru/companies/cedrusdata/articles/955896/

#trino #lakehouse #cedrusdata #starrocks #doris #duckdb

asapBI: импортозамещение SAP Calculation View

Любите ли вы SQL так же, как и я? Недавно, собирая огромный SQL-запрос, я понял, что надо что-то менять. Логическим блоком в SQL является подзапрос или CTE и вроде бы можно разбивать запрос по блокам и работать с ними отдельно, как строится по кирпичикам любое приложение. Однако когда весь текст запроса идет сплошняком на многие экраны, сложно и разрабатывать, и через длительное время понимать алгоритм запроса. А что, если не надо писать SQL? В SAP мы не писали запросы, мы создавали Calculation View, и работать с ними было на порядок быстрее и приятнее. Перефразируя диалог из Матрицы: - Когда я стану избранным, я смогу писать длинный SQL? - Тебе не надо будет писать SQL. Как?

https://habr.com/ru/articles/948888/

#sap_hana #postgresql #clickhouse #data_engineering #greenplum #trino #cedrusdata #sql #построители

Мой опыт эксплуатации кластера Trino

Trino — высокопроизводительный распределённый SQL-движок, с возможностью объединения данных из разнородных источников, таких как: реляционные БД, файловые хранилища, шины данных, inmemory-хранилища, облачные сервисы и тд. Архитектура ориентирована на выполнение аналитических запросов с минимальной задержкой. Т.е. с его помощью можно отправлять SQL-запросы в MongoDB и Kafka, например. Благодаря скорости, развитию, и удобству захватывает популярность у инженеров и аналитиков, работающих с bigdata. Я познакомился с Trino 1 год назад, за это время настроил с нуля кластер на baremetal и помог с проблемами в нескольких других. В этой статье делюсь краткой выжимкой опыта эксплуатации, накопленным за это время. Большая часть информации будет актуальна и для российского форка Trino: CedrusData .

https://habr.com/ru/articles/863854/

#trino #trinosql #hdfs #iceberg #cedrusdata #presto #prestodb

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость . В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

https://habr.com/ru/companies/cedrusdata/articles/863600/

#trino #cedrusdata #sql #iceberg

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

https://habr.com/ru/companies/cedrusdata/articles/860356/

#cedrusdata #iceberg #lakehouse

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join. Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

https://habr.com/ru/companies/cedrusdata/articles/843882/

#trino #cedrusdata #sql #data_analysis #data_engineering #query_optimization #query_performance #datalake #lakehouse

#cedrusdata

Client Info