#spark

2025-05-02

Day 69 of #The100DayProject I draw straight with Fountain Pen. If I make a mistake I just past paper over it as an eraser 😅 #Spark #PastInktober 27/2021. #FountainPen #WaterColour #GansaiTambi #MixedMedia #Midori #MastoArt #InkyParker51

Sketch in sketchbook of me holding a cake with two sparklers

AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #AWS_CodeArtifact #PyPI #Spark #PySpark

2025-04-24

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999 расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.

habr.com/ru/companies/rshb/art

#spark #arenadata #hadoop #datalake #витрина_данных #ai #платформа #livy

2025-04-23

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

habr.com/ru/companies/T1Holdin

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

Jan :rust: :ferris:janriemer@floss.social
2025-04-23

Co-Developing Programs and Their Proof of Correctness - the SPARK Programming Language and Analyzer

cacm.acm.org/research/co-devel

#SPARK #Ada #FormalVerification #SoftwareDevelopment #Quality

2025-04-22

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

habr.com/ru/companies/kryptoni

#spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

Johan Nyström-Perssonjtnystrom@genomic.social
2025-04-16

Is there any preferred solution for packaging and shipping software based on Apache #Spark other than Docker images? I found a site called spark-packages.org but that doesn't look like it's been updated for a long time. I'm interested in making Spark less intimidating for people who haven't used the ecosystem before. #bigdata #jvm

As soon as I heard Spark, the AT protocol-based TikTok alternative, was launching on Android, I immediately had to support And now Spark is available for download WORLDWIDE download it and give it a whirl #Spark I'm @durrell.sprk.so BTW follow me 😜

RE: https://bsky.app/profile/did:plc:bhexdu6auzdyyn7o7lx3gxjf/post/3lmscoxutx22x

2025-04-14

If you are curious about the inner workings of #cassandra, #debezium, #druid, #elasticsearch, #lucene, #kafka, #neo4j, or #spark then check out glennengstrand.info/software/o which presents a static code analysis of these eight open source giants.

AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #PySpark #Spark

AWS Glue for Spark のチュートリアルをやってみた(ワークアラウンドとデータ確認手順付き)
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #Spark #PySpark

2025-04-12

NOPE! that's where the time goes, you know.

I see what it is. All of my TLD "owned domain names" are not there.

So. yep. that explains why we don't use it.

For a while, it had access to any imap.
:(

are there #emailservice providers that let you setup for aggregate / inbox, several accounts like that?

#Spark email isnt free. #mailspring breaks for me, as well as #bluemail
never sending mail, waiting 15 minutes for a compose window to be drawn, composed from the wrong account, etc.

that's where the time goes, you know.

2025-04-10

Vuelvo a intentarlo unificar todos mis emails en #spark 🤷‍♂️

GripNewsGripNews
2025-04-10

🌘 DataSRE.ai – 智能 Spark 基礎架構管理
➤ AI 驅動的 Spark 效能提升方案
datasre.ai/
DataSRE.ai 是一款利用人工智慧技術,自動化創建、管理和優化 Spark 作業的平臺。它提供智能自動擴縮、運行時優化和 AI 查詢優化器等功能,旨在提升 Spark 基礎架構的效能與成本效益。透過簡單的指令,例如 `$ spark-sre analyze`,即可分析集羣效能、優化資源分配和運行時配置,協助使用者更有效地利用 Spark 資源。
+ 「這工具看起來能大幅減少我們團隊維護 Spark 集羣的時間,讓工程師可以專注在更重要的任務上。」
+ 「自動化的資源優化功能太吸引人了,對於經常處理大量資料的我們來說,絕對能有效降低成本。」

2025-04-09

Here's a new blog post on rolling your own CDM connector for #Synapse #Spark richardswinbank.net/synapse/co... making a virtue of necessity after discovering belatedly that the CDM connector for #Synapse #Spark isn't supported in v3.4 😕.

2025-04-07

Could a Trade Agreement Between the UK and US Spark Conflict with the EU?  
tinyurl.com/27786jd3

2025-04-04

Pretty healthy rivalry going over on #Bluesky / #Spark. I'm trying to win 😈, so please go follow @cynicalelysian.sprk.so on Bluesky to help me do that!
fed.brid.gy/r/https://bsky.app

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst