Lmst

Мифы о байесовском А/Б тестировании

Хабр, привет! Сегодня сравним два подхода к А/Б тестированию: байесовский и частотный. Обсудим сложности в интерпретации p-value. Посмотрим, как можно учитывать дополнительную информацию через априорное распределение. Остановим тест раньше времени и решим проблему подглядывания.

https://habr.com/ru/companies/X5Tech/articles/900032/

#abтестирование #ab_testing #data_science #data_driven #анализ_данных #аналитика #статистика #проверка_гипотез #байесовский_подход #bayesian

Тестирование платформы DeepSeek для проверки гипотез по анализу данных

Привет, Хабр! Мы, ребята из Центра эксплуатации Блока ИТ Страхового Дома ВСК, занимаемся управлением автоматизации ИТ-процессов. И у нас, как у всех — куча прикладных задач, которые хочется закрыть быстро дешево и качественно. Недавний хайп по Deepseek не обошел нас стороной, и мы решили протестировать платформу по парочке гипотез в надежде на чудо. И так, мы решили сфокусироваться на потребностях нашей команды технической поддержки в части анализа и обработки данных по ключевым метрикам и категоризации обращений. Гипотеза 1: Оценка тенденций ключевых показателей технической поддержки Мы решили проверить, насколько DeepSeek способен анализировать динамику показателей. В качестве данных взяли выгрузку по основным метрикам техподдержки: SLA, количество заявок (поступило/решено), количество негативных отзывов и пр. Скармливали выгрузку Excel, в общем то, простая таблица со следующими показателями (столбцы):

https://habr.com/ru/companies/vsk_insurance/articles/893110/

#техподдержка #deepseek #тестирование #проверка_гипотез #ии #искусственный_интеллект #категоризация #анализ_данных #аналитика #промптинг

Как внедрять инновации в IT-компаниях: практическое руководство

Привет! Я Катя Кривцова Узнать больше

https://habr.com/ru/companies/cloud_ru/articles/869450/

#инновации #стартап #проверка_гипотез #проекты #petпроекты

Ну что, «Кастдевим»? Или как провести глубинное интервью?

После проведения 200+ личных интервью и проектирования еще сотен, мы с командой решили собрать в единую статью гайд и примеры проведения глубинных интервью (или, в простонародье, кастдева ).

https://habr.com/ru/articles/863016/

#кастдев #интеврью #глубинное_интервью #глубинка #проверка_гипотез #гипотезы #продукт #управление #управление_продуктом

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Метод CUPED уже давно завоевал популярность в анализе A/B-тестов, предоставляя возможность выявлять эффекты меньших размеров. В этой статье мы подробно рассмотрим применение данного подхода на этапе дизайна эксперимента. Мы исследуем, как можно сократить размеры выборок, не теряя при этом в статистической мощности теста.

https://habr.com/ru/articles/860050/

#проверка_гипотез #анализ_данных #аналитика #математическая_статистика #ab_testing #a/b_test #a/bтестирование

Увеличиваем размер выборки и прокрашиваем серые метрики: неочевидная ошибка при проведении А/B — тестов

Иногда мы настолько бываем увлечены способами увеличения мощности тестов, снижения дисперсии, уменьшения длительности теста, что забываем смотреть на данные при использовании стандартного критерия Стьюдента. В этой статье я постараюсь простым языком рассказать о последствиях, к которым может привести слепой запуск A/B-тестов без предварительного А/А-тестирования.

https://habr.com/ru/articles/859088/

#a/bтестирование #a/btesting #data_science #data_driven #анализ_данных #проверка_гипотез #статистика

A/B тестирование в офлайне: как не потерять миллионы на масштабировании

Всем привет! Меня зовут Наталья Ким, я продакт-менеджер продукта A/B тестирования в Big Data «Ленты». Наша компания — это ведущий многоформатный ретейлер в области продуктового и FMCG-секторов, где каждый бизнес-юнит активно генерирует и реализует разнообразные изменения, направленные на оптимизацию показателей. Для оперативной проверки этих гипотез крайне важно использовать современные инструменты. Расскажу подробнее про направление A/B тестирования в «Ленте», как об инструменте проверки гипотез.

https://habr.com/ru/companies/lentatech/articles/858890/

#a/bтестирование #офлайн #проверка_гипотез #метрики_тестирования #пилотирование #дизайн_тестов #оценка_эффекта

Как не заблудиться в четырех соснах: выбираем способ найти причинно-следственную связь без экспериментов

Привет, я Паша - продуктовый аналитик во ВкусВилле, занимаюсь аналитикой коммуникаций. По долгу продукта касаюсь многих частей внутри мобильного приложения и почти всегда хочется знать как фактор X влияет на пользователя. Тут все вспомнили про AB тесты, но они не всегда возможны, поэтому в статье рассмотрим 4 метода исследований, которые помогут понять что делать, если выводы нужны, а рандомизации не случилось. Для нашей цели нужны квази эксперименты – это исследования ситуаций, когда выборка разделилась на группы по естественным (не обязательно случайным) причинам. В этой статье не будем детально разбирать математику и новейшие достижения методов, но посмотрим на идеи, кейсы и специфические предпосылки. Будет полезно тем, кто на вопросы вида “мы год назад запускали фичу, стало лучше?” не задумываясь говорит, что сказать нельзя.

https://habr.com/ru/companies/vkusvill/articles/843744/

#квазиэксперимент #прогнозирование #a/bтестирование #анализ_данных #проверка_гипотез #a/btesting #research

А/Б тестирование: множественная проверка гипотез

Хабр, привет! Сегодня обсудим, как проверять много гипотез в одном эксперименте. Разберёмся, почему растут вероятности ошибок. Познакомимся с метриками множественного тестирования и поправками, которые позволяют их контролировать. Узнаем, как оценить необходимый размер групп и повысить чувствительность.

https://habr.com/ru/companies/X5Tech/articles/842426/

#a/bтестирование #a/btesting #data_science #data_driven #анализ_данных #аналитика #статистика #проверка_гипотез

Рецепты самопомощи аналитика: универсальная стратегия предотвращения ошибок

Оля — тимлид группы аналитики в Naumen Service Management Platform. Часто аналитики приходят к ней с разными вопросами. Например, как правильно работать с требованиями и общаться с разработчиками, почему не получается эффективно распределить время и приоритизировать задачи. Чтобы помочь команде решить сложности, Оля разработала стратегию самопомощи для аналитиков. В статье она расскажет об ошибках, их причинах и «красных флагах», которые помогают понять, что что-то идет не так. Также Оля поделится выработанными рецептами предотвращения ошибок и объяснит, как и почему важно признавать промахи.

https://habr.com/ru/companies/naumen/articles/830808/

#навыки_аналитика #поиск_решения #проверка_гипотез #альтернативный_подход #объективность #приоритизация

А/Б тестирование: CUPED vs Stratification

CUPED и стратификация — два метода повышения чувствительности А/Б тестов. При первом знакомстве с ними часто возникают вопросы. В чём их отличие? Кто из них лучше? Чем пользоваться? Разберёмся с этими вопросами на примерах.

https://habr.com/ru/companies/X5Tech/articles/826488/

#a/bтестирование #a/b_testing #data_science #data_driven #анализ_данных #аналитика #статистика #проверка_гипотез

Varioqub: за Mann-Whitney замолвите слово

Привет, с вами команда аналитиков “Пятёрочки” X5 Tech. Как вы уже знаете, мы активно внедряем решение AppMetrica для мобильной аналитики . В AppMetrica есть модуль для проведения A/B тестов на приложении – называется Varioqub, который является, в том числе, платформой для A/B-тестов в Яндексе. Varioqub грозится стать одним из основных инструментов для проведения тестов в рамках бизнеса на территории России и СНГ, при этом не только на приложениях, но и на вебсайтах. Поэтому было бы полезно знать, как он работает, учитывая, что под капотом данная A/B-тестилка использует такой статистический критерий как Mann-Whitney. Если вы хотите понимать способ подсчёта результатов ваших тестов и иметь их интерпретацию лучше, чем “сумму рангов”, то эта статья для вас. Мы начнём с Mann-Whitney, по ходу разберём ещё два критерия, таких как Probability Index и ранговый тест Wilcoxon, которые помогут нам всё расставить по полочкам. Дальше мы коснёмся важных замечаний относительно этого теста, рассмотрим, как это решает Varioqub, и перейдём к самому Varioqub. Познать Mann-Whitney

https://habr.com/ru/companies/X5Tech/articles/823078/

#a/bтестирование #a/b_testing #a/b_test #a/b_тестирование #a/b_тесты #проверка_гипотез #mannwhitney #mannwhitneywilcoxon_test #статистика #статистический_тест

Бутстрап временных рядов

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу. Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно. Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных. В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.

https://habr.com/ru/companies/X5Tech/articles/814579/

#временные_ряды #бутстрап #bootstrap #data_science #анализ_данных #аналитика #статистика #проверка_гипотез #time_series #time_series_analysis

T-test. Зависимость от независимости

Привет, Хабр! В статье подробно рассмотрим область применения самого базового статистического критерия Стьюдента. Посмотрим, как он ведёт себя, когда мы не хотим отдавать качество подбора наших групп на волю случая.

https://habr.com/ru/companies/X5Tech/articles/807001/

#a/bтестирование #a/b_testing #статистика #ttest #аналитика #анализ_данных #проверка_гипотез

«Серёга, диктуй код из смс»: как мы ускорили проверку гипотезы с помощью эксперимента

Привет! Меня зовут Алина Бузинова, я менеджер продукта Отелло, сервиса бронирования отелей от 2ГИС. Ключевой принцип развития молодого продукта — скорость доставки полезных решений. Но не каждая фича — полезная, и не каждая полезная фича — дешёвая. Планировать шестимесячную разработку и не получить ожидаемого профита — непозволительная роскошь. Так, после генерации идей, направленных на поиск решений для роста конверсий в сервисе, мы решили прибегнуть к простому, но эффективному способу быстро проверять идеи. Мы решили, что готовы выделить на проверку каждой из гипотез не более трёх дней, а на несколько сложных — максимум две недели. В статье расскажу про то, как нам удалось реализовать e2e-сценарий для пользователя за две недели, разработка которого стоит около полугода. И каких принципов нужно придерживаться, чтобы применить такой подход в своём продукте.

https://habr.com/ru/companies/2gis/articles/807797/

#проверка_гипотез #product #product_management #эксперимент #управление_продуктом

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Одной из самых распространённых задач современной аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь о небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные об использовании лишь для 100 пользователей? Или стоит собрать данные для 1000 пользователей? Ответ интуитивно прост и понятен: чем больше данных есть в наличии, тем более точными будут прогнозируемые результаты для всей совокупности. Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A , A/B и A/B/C/D тестов .

https://habr.com/ru/articles/807051/

#математика #математическая_статистика #анализ_данных #статистический_анализ #ab_тесты #statsmodels #scipy #python #matplotlib #проверка_гипотез

А/Б тестирование на маленьких выборках. Построение собственного критерия

Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.

https://habr.com/ru/companies/X5Tech/articles/801527/

#a/bтестирование #a/b_testing #data_science #data_driven #анализ_данных #аналитика #статистика #проверка_гипотез

А/Б тестирование с CUPED: детальный разбор

Хабр, привет! Сегодня обсудим, как применять CUPED для повышения чувствительности А/Б тестов. Рассмотрим на простом примере принцип работы CUPED, покажем теоретически за счёт чего снижается дисперсия и приведём пример оценки эксперимента. Обсудим, как выбирать ковариату, как работать с бинарными метриками и что делать при противоречивых результатах.

https://habr.com/ru/companies/X5Tech/articles/780270/

#a/bтестирование #a/b_testing #data_science #data_driven #анализ_данных #аналитика #статистика #проверка_гипотез

#%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7

Client Info