#DataLake

2026-01-20

Процедурное SQL-расширение в Lakehouse-платформе – новые возможности для работы с данными

Вас приветствует команда Data Sapience, и в сегодняшней публикации мы расскажем о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей. В материале пойдет речь о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и примеры реализации решения типовых задач.

habr.com/ru/companies/datasapi

#lakehouse #impala #starrocks #bigdata #dwh #datalakehouse #datalake #bi

2026-01-20

Shifting Left delivers clean, reliable, and accessible data to everyone who needs it - right when they need it.

The result? Less complexity, lower overhead, and far less break-fix work, freeing teams to focus on higher-value problems.

At the core of a #ShiftLeft strategy are Data Products. They form the backbone of healthy data communication and ensure quality is built in - not patched on later.

📖 Great insights from this #InfoQ article on rethinking the Medallion Architecture: bit.ly/3WHjxsf

#SoftwareArchitecture #DataMesh #DataEngineering #DataLake #DataPipelines

Brandon H :csharp: :verified:bc3tech@hachyderm.io
2026-01-05

via #Microsoft : Microsoft announces acquisition of Osmos to accelerate autonomous data engineering in Fabric

ift.tt/MpyJ38g
#Microsoft #Osmos #DataEngineering #AI #AutonomousAI #MicrosoftFabric #DataAnalytics #DataWorkflows #DataIntegration #BigData #DataLake #OneLak

2025-11-21

Data lakes are typically thought of as simple warehouses. But they don't have to be! 👀 In Graylog 7.0 data lakes function as pressure release valves for #security teams overwhelmed by storage costs, investigation delays, and cloud data sprawl — where analysts can get direct access to long term data, and more.

Our data lake provides inexpensive storage where logs stay searchable, preview-able, and recoverable. Learn more about getting cloud scale without cloud surprises, and why this is a truly practical stance on managing data volume.

graylog.org/post/how-to-use-da #CyberSecurity #SEIM #DataLake #TDIR

2025-11-13

I discover DuckLake !

"DuckLake delivers advanced data lake features without traditional lakehouse complexity by using Parquet files and your SQL database. It's an open, standalone format from the DuckDB team."

github.com/duckdb/ducklake
ducklake.select/

#duckdb #data #bdd #database #datalake #parquet #sql

2025-11-07

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

habr.com/ru/companies/datasapi

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

Hacker Newsh4ckernews
2025-11-04
2025-11-04

Cloudflare has just launched the open beta of its Cloudflare Data Platform - a managed service for ingesting, storing & querying analytical data tables using open standards like Apache Iceberg.

🔍 Dive into the key insights on #InfoQbit.ly/49y1tIa

#CloudComputing #DataLake #DataAnalytics #ApacheIceberg #Cloudflare

2025-10-23

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

habr.com/ru/companies/datasapi

#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3

2025-10-22

🎙️ Hear from Ekechi Nwokah, CEO of Infino AI, on how they’re using 🔍 OpenSearch to power the next-gen data lake.

🤝 With a long-standing history in the OpenSearch community, Infino AI is proud to support its growth — including by sponsoring this year’s OpenSearchCon NA!

#OpenSearch #DataLake #OpenSource #Search #Community #OpenSearchCon

Reinald KirchnerReinald@nrw.social
2025-10-20

Wir hatten #Datawarehouse.
Wir hatten #DataCubes.
Wir hatten #datalake
Wir hatten #DataSwamp.

Und wir hatten immer das Versprechen, "Entscheider" könnten nun endlich datengetriebene Entscheidungen treffen, selber Auswertungen machen, selber Muster erkennen. Funktioniert hat das noch nie, immer haben Entwickler versucht, mit den passenden Werkzeugen passende Reports zu bauen.

Jetzt füttert man den Datenbestand in ein LLM. Und hofft, dass das LLM nun die Muster findet. Ob diesmal klappt?

Carlos Mendible :verified:cmendibl3@hachyderm.io
2025-10-12

📢📢📢 The wait is almost over! Vaulted Backup for Azure Data Lake Storage is now Public Preview. #backup #datalake #Azure azure.microsoft.com/en-us/upda

2025-09-17

Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

habr.com/ru/companies/arenadat

#spark_connect #apache #datalake #lakehouse #платформа_данных #bigdata #dataframe #интеграция_сервисов #apache_arrow #spark

2025-08-28

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0 , разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API . Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0 . Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции. Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

habr.com/ru/companies/arenadat

#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность

2025-08-28

📺 #Netflix has introduced a new engineering specialization: Media ML Data Engineering - powered by a Media Data Lake designed to handle video, audio, text, and image assets at scale.

The impact so far:
✅ Richer ML models trained on standardized media
✅ Faster evaluation cycles
✅ Deeper insights into creative workflows

🔗 Learn more: bit.ly/4oWM3T3

#InfoQ #DataLake #AI

2025-08-26

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

habr.com/ru/companies/datasapi

#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh

2025-08-16

WAP паттерн в data-engineering

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

habr.com/ru/articles/937738/

#data_engineering #bigdata #big_data #data_warehouse #data_quality #warehouse #datalake #etl

Corootcoroot
2025-08-15

We’re excited to partner with Greptime to teach you how to set up a fully observability stack — complete with a Prometheus Group compatible and real-time incident insights! t.ly/JNmvQ

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst