#%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D1%80%D1%8F%D0%B4%D1%8B

2025-04-10

Пример экспресс-анализа предпочтительности моделей импутации пропусков в многомерных временных рядах

Зачастую устранение пропусков — обязательный этап предварительной обработки временных рядов. Эта небольшая работа обусловлена стремлением создать инструмент оперативного подбора модели для импутации/вменения определенного вида пропусков в определенных временных рядах.

habr.com/ru/articles/899408/

#временные_ряды #пропуски #аномалии #прогнозирование #time_series_analysis

2025-03-22

Polars для обработки JSON и Parquet

Привет, Хабр! Сегодня рассмотрим тему обработки временных рядов с помощью Polars. Начну с того, что в Pandas для агрегации временных рядов принято использовать метод resample() . Он удобен и привычен, но имеет свои ограничения по производительности и гибкости. Polars, в свою очередь, имеет метод groupby_dynamic() , который позволяет группировать данные по динамическим временным интервалам.

habr.com/ru/companies/otus/art

#polars #временные_ряды #обработка_временных_рядов #аналитика

2025-01-16

Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты

Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы? В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе.

habr.com/ru/companies/X5Tech/a

#анализ_данных #data_science #аналитика #статистика #эконометрика #эконометрика_в_ритейле #временные_ряды #time_series #абтесты #коинтеграция

2024-12-16

[Перевод] Знакомство со слоем абстракции Netflix для хранения временных рядов

Netflix продолжает расширять бизнес и диверсифицироваться в различных направлениях, вроде доставки видео по запросу и гейминга. В результате всё важнее становятся технологии, обеспечивающие загрузку временных (темпоральных) данных в системы компании и их хранение. Речь идёт об огромных объёмах данных, измеряемых петабайтами. А задержки доступа к этим данным должны укладываться в миллисекунду. В предыдущих материалах мы рассказывали о нашем слое абстракции для хранения данных типа « ключ-значение », и о платформе, реализующий возможности шлюза данных . И то и другое — это неотъемлемые части подсистемы, отвечающей в Netflix за работу с данными. Система хранения данных типа «ключ-значение» — это гибкое и хорошо масштабируемое решение для работы со структурированными данными соответствующего формата. А шлюз данных — это платформа, которая даёт компании базовую инфраструктуру, обеспечивающую защиту, настройку, развёртывание компонентов, ориентированных на работу с данными.

habr.com/ru/companies/wunderfu

#Netflix #базы_данных #разработка #временные_ряды #TimeSeries #Elasticsearch #Apache_Cassandra

2024-12-06

Chronos от Amazon: революция в обработке временных рядов. Часть 2

Итак, друзья, продолжаем тему прогнозирования временных рядов с помощью Chronos. Напомню, что Chronos это фреймворк от компании Amazon — простой, но эффективный фрэймворк для предобученных вероятностных моделей временных рядов. Chronos токенизирует значения временных рядов с помощью масштабирования и квантования в фиксированный словарь и обучает существующие архитектуры языковых моделей на основе трансформеров на этих токенизированных временных рядах с использованием функции потерь кроссэнтропии. Chronos был предобучен на основе семейства T5 (размеры от 20M до 710M параметров) на большом количестве общедоступных наборов данных, дополненных синтетическим набором данных, который сгенерировали с помощью гауссовских процессов для улучшения обобщения. В этой статье я не буду подробно рассказывать как устроен Chronos и на чем он предобучен. Вся эта информация подробно изложена в моей предыдущей статье ( Часть 1 ). Здесь мы попробуем применить его на общедоступных данных на примере прогнозирования котировок акций компаний из индекса Dow Jones (общедоступный датасет на Kaggle), а также на данных одного крупного российского перевозчика. По биржевым данным цель была проста, посмотреть, как новый инструмент справляется с задачей предсказания цены акции. А на данных с железной дороги в качестве цели исследования выбрали построение прогнозов по количеству отступлений, называемых просадка пути. Многие из вас ездили поездом, и вот когда качает, это зачастую и есть просадки. Отступление довольно часто и быстро возникающее, влияет на безопасность движения, плавность хода и скорость. И предприятиям, обслуживающим путь, полезно оценивать при планировании, сколько таких отступлений предстоит устранять в следующем месяце. Данные брали посуточные, для десяти случайно выбранных предприятий. Временной период в 4 года, из них 1 месяц для тестирования. Посуточные показатели суммировали до месяца. В случае Dow Jones, пытаемся предсказать цену закрытия акции посуточно на 12 точек вперед.

habr.com/ru/articles/859498/

#машинное_обучение #data_science #time_series #natural_language_processing #chronos #искусственный_интеллект #machine_learning #llm #artificial_intelligence #временные_ряды

2024-11-18

[Перевод] Chronos от Amazon: революция в обработке временных рядов

Часть 1. Как создавался Chronos Привет, Хабр. Для начала, разрешите представиться. Меня зовут Елисеев Сергей, работаю аналитиком в лаборатории ИИ компании ООО «ОЦРВ». В рамках корпоративной деятельности нам часто приходится иметь дело с временными рядами. Нужно отметить, что мы исследуем не только решения и результаты применения классических методов машинного обучения, но и изучаем новые технологии и подходы к работе с большими данными. В процессе анализа SOTA решений, наткнулся на очень интересный фреймворк для прогнозирования временных рядов Chronos, который компания Amazon выкатила в опенсорс в мае 2024 года. С удивлением обнаружил, что на Хабре пока ничего про него нет и решил поделиться, так как инструмент вполне годный. Поскольку информации о нашем исследовании собралось довольно много, я решил разбить статью на две части: теоретическую и практическую. Сразу оговорюсь, изложенная в первой части информация это конспект переведенной мной официальной документации по Chronos, а во второй – результаты экспериментов с Chronos как на общедоступных данных с Kaggle (знаменитый Dow Jones Index), так и на корпоративных данных (предсказание инцидентов на различных участках железной дороги). Итак, погнали… Прогнозирование временных рядов. Прогнозирование временных рядов является важным компонентом принятия решений в различных областях, включая розничную торговлю, энергетику, финансы, здравоохранение и климатологию. Традиционно прогнозирование доминировалось статистическими моделями, такими как ARIMA и ETS. Эти модели служили надежными инструментами, по крайней мере, до недавнего перехода к методам глубокого обучения (Hyndman & Athanasopoulos, 2018; Benidis et al., 2022). Этот переход можно объяснить доступностью больших и разнообразных источников данных временных рядов, а также возникновением операционных задач прогнозирования (Kolassa & Januschowski, 2019), которые подчеркивают сильные стороны моделей глубокого обучения, как пример, способность извлекать шаблоны из большого количества временных рядов. Несмотря на их впечатляющую производительность, модели глубокого обучения все еще работают в стандартном режиме обучения и прогнозирования на одном и том же наборе данных. Хотя были проведены работы, посвященные трансферному обучению (Ye & Dai, 2018) и адаптации к доменам (Jin et al., 2022) для прогнозирования, область еще не пришла к единой, универсальной модели прогнозирования, что остается важной целью для исследователей временных рядов.

habr.com/ru/articles/854414/

#машинное_обучение #временные_ряды #искусственный_интеллект #языковые_модели #machine_learning #timeseries #Chronos #предсказания #datascience

2024-11-13

Dask для анализа временных рядов

Привет, Хабр! Сегодня расскажем, как с помощью Dask можно анализировать временные ряды. С временными рядами всегда заморочек много: большие данные, сложные расчеты. Но Dask отлично с этим справляется.

habr.com/ru/companies/otus/art

#dask #временные_ряды

2024-10-05

Darts: тестируем временные ряды с нуля

Привет, Хабр! Если вы когда-либо имели дело с временными рядами, то, вероятно, слышали о Darts. А для тех, кто ещё в танке: Darts — это мощный инструмент, который поддерживает мультиварибельные временные ряды и легко интегрируется с PyTorch и TensorFlow. Зачем же тестировать временные ряды, когда в классическом машинном обучении всё так просто с кросс-валидацией? Временные ряды обладают своей изюминкой: они подвержены временным зависимостям, сезонности, трендам и другим радостям жизни. Так что, если вы хотите, чтобы ваши модели не провалились на тестах, время разобраться с их особенностями!

habr.com/ru/companies/otus/art

#python #darts #временные_ряды #машинное_обечение

2024-06-19

SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает

Продолжаю рассказывать про первые шаги в моделировании временных рядов. В этой статье разбираю модели SARIMAX и Экспоненциальное сглаживание, с примерами картинок и кода.

habr.com/ru/articles/822987/

#временные_ряды #sarima #Exponential_smoothing

2024-06-12

Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара

Что такое временной ряд, модель ARIMA и как к ней подбирать параметры. Простым словами, временной ряд — это просто последовательность событий, которая как-то зависит от времени. Мы для начала будем считать, что ряд самый простецкий и нас просто есть скачущие туда-сюда точки, которые распределены по временной шкале.

habr.com/ru/articles/821231/

#временные_ряды #time_series_analysis #arima

2024-05-16

Бутстрап временных рядов

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу. Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно. Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных. В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.

habr.com/ru/companies/X5Tech/a

#временные_ряды #бутстрап #bootstrap #data_science #анализ_данных #аналитика #статистика #проверка_гипотез #time_series #time_series_analysis

2024-04-19

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor ). В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению. В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.

habr.com/ru/companies/megafon/

#big_data #машинное_обучение #глубокое_обучение #обработка_текстов #компьютерное_зрение #рекомендательные_системы #временные_ряды #графовые_нейросети #обучение_с_подкреплением #data_science

2024-04-18

Автоматически выделяем кусочно-линейные тренды временного ряда

Меня зовут Антон Сорока, я математик и аналитик данных. Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

habr.com/ru/articles/808733/

#временные_ряды #статистика #интерполяция #анализ_данных

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst