#PySpark

2025-06-02

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

habr.com/ru/companies/lentatec

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg

2025-05-22

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2

Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных в Х5 Tech, успел за это время познакомиться с несколькими интересными проектами и подходами в области обработки данных, об одном из которых пойдет речь далее. В этой статье расскажу о том, как можно повысить эффективность хранения данных за счет уменьшения их дублирования. Разберем, что из себя представляют Slowly Changing Dimensions-2 (далее SCD-2) таблицы и самостоятельно реализуем на PySpark алгоритм сохранения данных в них. Попутно поговорим о том, как находить изменения в любой таблице, даже если отсутствуют поля для выбора изменившихся записей, и научимся получать из созданной SCD-2 таблицы срезы на требуемую дату в прошлом.

habr.com/ru/companies/X5Tech/a

#SCD #spark #python #обработка_данных #хранение_данных #нахождение_дельты #история_изменений #алгоритм_нахождения_изменений #pyspark #сжатие_данных

AWS Glue for Spark のジョブから、AWS CodeArtifact を経由して PyPI のライブラリをインストールする
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #AWS_CodeArtifact #PyPI #Spark #PySpark

2025-04-25

Контролируем качество данных с помощью Python

В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов. В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.

habr.com/ru/companies/otus/art

#qa #data_analysis #качество_данных #аналитика_данных #Python_для_анализа_данных #pandas #Pyspark #Очистка_данных #Аномалии_в_данных

Marcel-Jan KrijgsmanMarcelJan@mastodon.nl
2025-04-24

How well do you think you know your data, #dataengineers and #datascientists ? You might want to profile your data more.
I've worked with the #Python package #ydata-profiling . It has some issues. But when I got it working, I found some surprising details about a dataset that I thought I already knew quite well. #pyspark
marcel-jan.eu/datablog/2025/04

AWS Glue 5.0からPythonのライブラリをrequirements.txtで指定できるようになったので検証してみた
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #PySpark #Spark

AWS Glue for Spark のチュートリアルをやってみた(ワークアラウンドとデータ確認手順付き)
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #Spark #PySpark

AWS Glue for SparkからDatabricksのテーブルにアクセスしてみた
dev.classmethod.jp/articles/aw

#dev_classmethod #Databricks #AWS_Glue #PySpark #JDBC

【Databricks】Auto LoaderとDLTを利用してS3に連携されるファイルで増分更新・洗い替えをしてみた
dev.classmethod.jp/articles/da

#dev_classmethod #Databricks #Amazon_S3 #AWS #PySpark #SQL

Python Job Supportpythonjobsupport
2025-03-15

What is Apache Spark? Learn Apache Spark in 15 Minutes

apachespark In this video, I have covered the most important ... source

quadexcel.com/wp/what-is-apach

2025-03-12

🌟 Just wrapped up the homework for Batch 5 of the Zoomcamp!
I processed and analyzed the yellow_tripdata_2024-10.parquet and taxi_zone_lookup.csv datasets using PySpark and Spark SQL. Feels great to finish a hands-on project! 🏆

2025-03-12

📈 Spark SQL is amazing!
Today I worked on SQL queries within PySpark to analyze and transform large datasets. This is such a powerful tool for data engineering! 🚀

2025-03-12

💥 Today, I started using Spark on GCP with PySpark.
Worked with yellow_tripdata_2024-10.parquet and taxi_zone_lookup.csv to process data. Learning how Spark handles big data in the cloud is incredible! 🚗

2025-03-12

🚀 I’ve just started the Zoomcamp Data Engineering by @DataTalksClub!
This module focuses on ETL processing with Spark, Spark SQL, and DataFrames. Excited to dive into big data processing and learn how to use Spark at scale! 🔥

Overture Rede Private LimitedOvertureRede
2025-02-20

JOB OPENING

Position: Python Developer (SSE & TL)

Location: Bangalore (Client Office)

Duration: Full-Time

Notice Period: 30 Days Only

Skills: Python, PySpark, Hadoop

Experience: 5–7 years (SSE) / 7–9 years (TL)

📩 Submit your CV: resumes@overturerede.zohorecruitmail.in

📞 Contact: +917428694900

📢 Apply now & grow with a leading e-commerce team!
zurl.co/IeK73



2025-01-27

Pregunta para gente de aquí que sepa, estoy intentando aprender Pyspark, y he hecho ya un curso básico y eso, podríais recomendarme un curso bueno al respecto?Gracias!

2025-01-05

The house at the lake, Teil 1- Iceberg ahead. Data Lakehouse baby steps. blog.sogeo.services/blog/2025/ #ApacheIceberg #Spark #Pyspark #Datalake #Lakehouse

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst