#apache_airflow

2025-05-22

Планировщики процессов — другие open source решения

Такие workflow-оркестраторы, как Metaflow или Apache Airflow, на слуху. Однако в их тени существуют не менее интересные решения — например, StepWise, Dagu, Windmill, Flyte и µTask. Они предоставляют интересные возможности для автоматизации, ускорения и упрощения настройки сложных workflow, и часто обладают более современной архитектурой, меньшим порогом входа или ярко выраженной специализацией для типовых задач. Сегодня познакомимся подробнее с инструментами, которые расширят ваш арсенал и помогут создавать более надёжные и экономичные системы.

habr.com/ru/companies/mws/arti

#metaflow #apache_airflow #StepWise #Dagu #Windmill #Flyte #workflow #работа_с_данными

2025-03-09

Работа с библиотеками, которые не установлены в Airflow

Данные библиотеки можно использовать при работе со SparkOperator: 1. Создание виртуального окружения с необходимыми библиотеками 2. Создание задачи в даге и установка окружения в SparkSubmit

habr.com/ru/articles/889394/

#apache_airflow #bigdata #python #виртуальное_окружение #практики_программирования #dags #bash #etl

2025-02-13

Рынок труда ML-специалистов в 2025 году: востребованные навыки и карьерные треки

В одном из недавних интервью Марк Цукерберг заявил , что к 2025 году искусственный интеллект (ИИ) сможет выполнять большинство задач Middle-разработчиков в Meta (запрещенная в РФ организация). По словам Цукерберга, ИИ уже помогает писать код и постепенно забирает на себя простые инженерные задачи, но хорошие Middle-инженеры все еще будут нужны. Правда при условии, что они будут осваивать новые востребованные технологии. С учетом влияния компании на технологическую повестку во всем мире заявление звучит серьезно: крупные игроки индустрии уже сейчас диктуют направление, в котором будет развиваться рынок труда в связи с масштабированием ИИ — это автоматизация большей части функций и появление новых. В таких условиях многим специалистам придется адаптироваться и прокачивать навыки, чтобы оставаться востребованными на рынке.

habr.com/ru/articles/882040/

#машинное_обучение #mlинженер #ai_talent_hub #mlops #разработка_вебсервисов #рынок_труда_it #pytorch #scikitlearn #apache_airflow #postgresql

2025-01-16

СОЗДАНИЕ ETL-ДВИЖКА ДЛЯ РЕПЛИКАЦИИ ДАННЫХ ИЗ APACHE HIVE В CLICKHOUSE

Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

habr.com/ru/articles/874262/

#apache_hive #репликация_данных #python #clickhouse #apache_airflow #spark #jupyterlab #jupyter_notebook

2025-01-04

Как мы деплоем Apache Airflow для промышленного использования в Kubernetes

Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией. Развертывание Apache Airflow в промышленной среде — это сложная задача, требующая учета множества аспектов: от обеспечения безопасности конфиденциальных данных до эффективного управления ресурсами. Одной из ключевых проблем, с которыми сталкиваются команды, является безопасное управление секретами, оптимизация конфигураций и наблюдаемость. В этой статье мы рассмотрим, как использовать инструменты, такие как Sops и YAML-якоря, для упрощения управления конфиденциальными данными и улучшения читаемости конфигураций. А так же как обеспечить полную наблюдаемость инсталляции Apache Airflow

habr.com/ru/articles/871660/

#apache_airflow #observability #kubernetes #production

2024-12-05

Интеграция с ClickHouse: 1С vs Apache Airflow. Плюсы и минусы

На связи Никита Скирдин, программист 1С компании «Белый код». Для BI-аналитики необходимо собирать данные из различных систем в централизованное хранилище. Как правило, перед использованием данных для построения графиков, таблиц и т. д. их необходимо преобразовать. В этой статье расскажу, как решали задачу загрузки данных в централизованное хранилище ClickHouse и реализовали модель ELT (extract load transform), используя сначала 1С, а затем Apache Airflow.

habr.com/ru/articles/864088/

# #apache_airflow #clickhouse #интеграция #сравнение #плюсы_и_минусы

[アップデート] Amazon MWAAが新しくInvokeRestAPIをサポートし簡単にRest APIが叩けるようになりました
dev.classmethod.jp/articles/up

#dev_classmethod #Amazon_MWAA #Apache_Airflow #AWS

BigQuery で Airflow DAG のオーケストレーションができるようになりました(Preview)
dev.classmethod.jp/articles/bi

#dev_classmethod #Google_Cloud_GCP #Cloud_Composer #Apache_Airflow #Google_BigQuery

Cloud Composer で Dataplex のデータリネージ統合を試してみた 〜カスタム リネージ イベント編〜
dev.classmethod.jp/articles/cl

#dev_classmethod #Google_Cloud_GCP #Cloud_Composer #BigQuery #Google_Cloud_Storage #Apache_Airflow

Amazon MWAAでOperatorがAssumeRoleする際にSTSリージョナルエンドポイントを使用する
dev.classmethod.jp/articles/am

#dev_classmethod #Amazon_MWAA #AWS_STS #AWS #Python #Apache_Airflow #Boto3

2024-09-04

Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK

В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это прогнозирование продаж или планирование рекламных кампаний. Как правило, их решение не обходится без построения длинного пайплайна обработки данных. ML‑инженеру или аналитику данных нужен ансамбль из нескольких моделей и сервисов, чтобы собрать качественный датасет, провести эксперименты и выбрать наиболее подходящие алгоритмы. Сбор, очистка и агрегация данных занимают большую часть времени и вычислительных ресурсов, а эти затраты хочется оптимизировать. В статье покажем, как мы ускорили построение пайплайнов обработки данных с помощью связки DataSphere Jobs и Apache Airflow™.

habr.com/ru/companies/yandex_c

#apache_airflow #datasphere #пайплайн #dag

2024-05-16

Apache Airflow: преимущества и недостатки

Одним из популярных оркестратором задач является Apache Airflow. Он, как и все инструменты, имеет свои преимущества и недостатки, о которых пойдет речь в данной статье Подробнее

habr.com/ru/articles/811807/

#apache_airflow #ci/cd #python

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst