#kdrama #cdrama #TwelveLetters
Anyone watching the CDrama Twelve Letters? Saw an article talking about it and listing 5 reasons why I should watch it.... I was getting serious #LakeHouse movie vibes. Thoughts?
#kdrama #cdrama #TwelveLetters
Anyone watching the CDrama Twelve Letters? Saw an article talking about it and listing 5 reasons why I should watch it.... I was getting serious #LakeHouse movie vibes. Thoughts?
Spark Connect. А нужны ли перемены?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.
https://habr.com/ru/companies/arenadata/articles/921246/
#spark_connect #apache #datalake #lakehouse #платформа_данных #bigdata #dataframe #интеграция_сервисов #apache_arrow #spark
Design Milk : Pura Vida Is a Modern Floating Home on Seattle’s Portage Bay https://design-milk.com/pura-vida-is-a-modern-floating-home-on-seattles-portage-bay/ #HoshideWanzerArchitects #slidingglassdoors #modernhouseboat #waterfronthouse #InteriorDesign #floatinghouse #indooroutdoor #woodcabinetry #Architecture #DynaBuilders #slidingdoors #residential #roofterrace #blackhouse #glasswalls #roofgarden #Washington #greenroof #houseboat #LakeHouse #lakeside #seattle #house #Main
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0 , разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API . Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0 . Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции. Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?
https://habr.com/ru/companies/arenadata/articles/921252/
#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность
[Перевод] Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse
Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.
https://habr.com/ru/articles/941588/
#starrocks #материализованные_представления #lakehouse #lakehouseплатформа_данных #data_lake #data_warehouse #ускорение_запросов #инкрементальные_бэкапы #hive #iceberg
Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе ними
Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей». Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с: -недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом; -отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной. -особенностями сборок дистрибутивов; Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.
https://habr.com/ru/companies/datasapience/articles/941046/
#s3 #minio #hdfs #greenplum #bigdata #lakehouse #datalake #dwh
Traditional Japanese Houses with Beautiful Lake Views
#lake #lakehouse #Japanese #traditional #landscape #midjourney #ai #aiart #aiartwork
[Перевод] StarRocks и Trino: сходства, различия, бенчмарки и кейсы
Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций. Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы. StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.
https://habr.com/ru/articles/939370/
#starrocks #trino #presto #векторизация #simd #материализованные_представления #query_rewrite #data_catalog #lakehouse #lakehouseплатформа_данных
A soft white duck on muted blue...
ART
https://fineartamerica.com/featured/soft-white-duck-on-blue-sharon-cummings.html
#art #artwork #bird #birds #birdart #duck #ducks #pekinduck #farm #farming #farmhouse #farmlife #homestead #homesteading #cottage #country #countryliving #countryhumans #animals #homedecor #interiors #interiordecor #interiordecorating #home #kitchen #kitchenart #animallovers #animal #barn #SharonCummingsArt #buyintoart #white #fairytales #blue #feathers #feather #rustic #lakehouse #lake #lakes #pond #ponds
💰🎪 "Databricks tosses its 11th hat into the #funding circus, with a valuation so high it could buy a small planet. Meanwhile, execs are busy listing buzzwords like 'Lakehouse' and 'Ecosystem' like they're going out of style. 🚀🔮"
https://www.databricks.com/company/newsroom/press-releases/databricks-raising-series-k-investment-100-billion-valuation #Databricks #Lakehouse #Ecosystem #TechNews #Investment #HackerNews #ngated
🌗 URSA - 領導者式、無狀態的 Kafka 流暢處理,成本降低 95%
➤ 數據串流新紀元:URSA 引擎如何實現高效能、低成本與簡化管理
✤ https://streamnative.io/products/ursa
StreamNative 推出 URSA,一款革新性的資料串流引擎,能以極低的成本(最高降低 95%)支援 Kafka 和 Pulsar 工作負載。URSA 採用領導者式(leaderless)且無狀態(stateless)的架構,提供 100% Kafka API 相容性,無需重寫應用程式,並消除了對 ZooKeeper 的依賴,大幅簡化管理。此外,URSA 能將資料直接寫入低成本物件儲存的 Lakehouse 格式,便於即時查詢,並支援多種協定,讓 AI 模型與企業應用程式都能受益於無縫的資料串流。
+ 這太令人興奮了!能夠用更低的成本處理 Kafka 工作負載,而且還支援 Pulsar,這對我們這些依賴串流資料的團隊來說真是福音。
+ 領導者式
#資料串流 #Kafka #Pulsar #URSA #StreamNative #Lakehouse #AI
Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS
Привет! Сегодня я продолжаю тему сравнения систем и движков массивных параллельных вычислений. В прошлой публикации я раскрыл основные принципы проведения тестирования, которыми руководствуется наша команда, и привел результаты как реальных промышленных сценариев, так и синтетических тестов. Материал вызвал интерес и дискуссию: значит, он актуальный и полезный. Для кого-то факты стали убедительными, а кто-то усомнился в объективности результатов, поэтому, как и было обещано, я делюсь материалами сравнительного тестирования, выполненного по общепринятому стандарту TPC-DS. Сегодня вы узнаете, повлияла ли смена методики на результаты.
https://habr.com/ru/companies/datasapience/articles/921882/
#trino #impala #greenplum #lakehouse #bigdata #mpp #dwh #tpcds #data #data_lake
Where Would You Go to Wait for the #Apocalypse?
Would you experience something new or go somewhere familiar? You’ll find our team at a #lakehouse, in a #comicshop, or … at #Costco?
https://www.atlasobscura.com/articles/podcast-spend-last-days-apocalypse
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды
https://habr.com/ru/companies/arenadata/articles/915684/
#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio
moths skimming water
juvenile pink salmon sing
summer opera!
#mastoprompt - opera
#dailyhaikuprompt - moth
ART
https://fineartamerica.com/featured/colorful-salmon-fish-art-color-fusion-sharon-cummings.html
#salmon #salmonfish #fish #fishes #fishy #healthylifestyle #healthyeating #healthyfood #gourmet #chef #chefs #kitchen #nature #art #artwork #flyfishing #fishing #fishinglife #cabin #camping #farmhouse #stream #lake #lakehouse #colorful #poetry #haiku #poem #poems #poet #poets #smallpoem #smallpoems #shortpoem #shortpoems #buyintoart #sharoncummingsart #summer
a spray of water
a carnival of color
rainbow trout fishing
#dailyhaikuprompt - spray
#Mastoprompt - carnival
ART
https://fineartamerica.com/featured/colorful-rainbow-trout-art-sharon-cummings.html
#art #artwork #fediart #mastoart #trout #troutfish #troutfishing #sport #sports #campting #summer #summertime #lake #lakehouse #lakes #streams #flyfishing #fishing #fishy #fish #fishes #country #rustic #farmhouse #homedecor #colorful #colorfulart #handmade #fun #rainbow #animals #nature #naturelovers #animal #rainbowtrout #handmade #SharonCummingsArt
Colorful Largemouth Bass. A Florida beauty that can be found in our rivers and lakes. If the water is clear enough, you can see them. They are really cool to watch!
ART
https://fineartamerica.com/featured/colorful-large-mouth-bass-fish-sharon-cummings.html
#art #artwork #fediart #mastoart #bass #bassfish #bassfishing #Florida #floridalife #lake #lakehouse #lakes #streams #flyfishing #fishing #fishy #fish #fishes #country #rustic #farmhouse #homedecor #colorful #colorfulart #handmade #fun #rainbow #animals #nature #naturelovers #animal #summer #summertime
The DuckLake Manifesto: SQL as a Lakehouse Format.
https://ducklake.select/manifesto/
I just know I'm going to have the theme from Swan Lake as quacked by ducks in my head 🦆
🌊 Wow, a #serverless #lakehouse that’s "Python-first" and uses "git-for-data" on S3! 🤯 Because what we really needed was more #buzzwords stuffed into a platform nobody asked for. 🐍💾🚀 Let's just rename it to "Bau-what-now?" and call it a day.
https://docs.bauplanlabs.com/en/latest/ #PythonFirst #gitForData #S3 #BauWhatNow #HackerNews #ngated