#datasphere

2024-09-04

Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK

В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это прогнозирование продаж или планирование рекламных кампаний. Как правило, их решение не обходится без построения длинного пайплайна обработки данных. ML‑инженеру или аналитику данных нужен ансамбль из нескольких моделей и сервисов, чтобы собрать качественный датасет, провести эксперименты и выбрать наиболее подходящие алгоритмы. Сбор, очистка и агрегация данных занимают большую часть времени и вычислительных ресурсов, а эти затраты хочется оптимизировать. В статье покажем, как мы ускорили построение пайплайнов обработки данных с помощью связки DataSphere Jobs и Apache Airflow™.

habr.com/ru/companies/yandex_c

#apache_airflow #datasphere #пайплайн #dag

2024-05-08

Удалённое исполнение кода в ML: подходы и инструменты. Доклад Яндекса

Всем привет. На связи Артём Гойлик @ArtoLord и Владислав Волох @Chillintano из команды DataSphere в Yandex Cloud. Мы создаём инфраструктуру для ML-разработчиков. И сегодня расскажем про одну задачу, которая, как и многие другие, начиналась с болей наших пользователей.

habr.com/ru/companies/yandex/a

#mlops #mlops_tools #pypi #datasphere #python #неймспейсы #опенсорс

2024-01-26

Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs

В сообществе ML-инженеров и дата-сайентистов популярны инструменты с быстрой обратной связью наподобие JupyterLab — они помогают легко и без лишних обвязок проверять гипотезы или создавать прототипы. Но довольно часто бывает, что при разработке ML-пайплайна, будь то инференс или обучение модели, хочется пользоваться установленной локально полноценной IDE, в которой открыт проект со многими зависимостями, окружением, сложной структурой. При написании кода и его отладке хочется пользоваться дебагером и уметь быстро менять код, а при запуске — скейлить ресурсы исполнения и не думать о том, как перенести код и окружение на продакшн-сервера. Всех этих возможностей в Jupyter-экосистеме из коробки нет, поэтому разработчикам часто приходится создавать костыли. Помочь в решении этих задач могут инструменты для удалённого исполнения кода в ML. Сегодня на конкретном примере покажу, как устроен и как работает один из таких инструментов, созданный нами для пользователей облака, — DataSphere Jobs. А в следующий раз вместе с моими коллегами рассмотрим опенсорс-инструменты для подобных задач.

habr.com/ru/companies/yandex_c

#datasphere #mlops #stablediffusion

2024-01-25

Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs

В сообществе ML-инженеров и дата-сайентистов популярны инструменты с быстрой обратной связью наподобие JupyterLab — они помогают легко и без лишних обвязок проверять гипотезы или создавать прототипы. Но довольно часто бывает, что при разработке ML-пайплайна, будь то инференс или обучение модели, хочется пользоваться установленной локально полноценной IDE, в которой открыт проект со многими зависимостями, окружением, сложной структурой. При написании кода и его отладке хочется пользоваться дебагером и уметь быстро менять код, а при запуске — скейлить ресурсы исполнения и не думать о том, как перенести код и окружение на продакшн-сервера. Всех этих возможностей в Jupyter-экосистеме из коробки нет, поэтому разработчикам часто приходится создавать костыли. Помочь в решении этих задач могут инструменты для удалённого исполнения кода в ML. Сегодня на конкретном примере покажу, как устроен и как работает один из таких инструментов, созданный нами для пользователей облака, — DataSphere Jobs. А в следующий раз вместе с моими коллегами рассмотрим опенсорс-инструменты для подобных задач.

habr.com/ru/companies/yandex_c

#datasphere #mlops #stablediffusion

2023-03-31

This week's SAP Developer News:
➡️ SAP #Datasphere Analytic Model Series
➡️ Week 4 of March Dev Challenge (continuing the Inception Theme)
➡️ Updating machine types on #Kyma runtime
➡️ #CodeJam Roadshow Week 3
➡️ SAP Developer News Podcast
youtube.com/watch?v=W1RDIWVLhQ

2023-03-17

This week in SAP Developer News:
➡️ SAP #BTP #Kyma Learning Journey
➡️ SAP #CodeJam Roadshow Week 1
➡️ #Python Machine Learning Client for SAP #HANA
➡️ SAP #BTPCon 2023
➡️ Analytic Model in SAP #Datasphere
youtube.com/watch?v=FKJ4relNhL

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst