Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов
В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования ускорить обработку данных, как правильно настраивать оконные функции и запускать множество небольших Spark-приложений внутри одного процесса для экономии ресурсов. Привет, Хабр! Меня зовут Александр Маркачев и я — Data Engineer команды Голосовой Антифрод в билайн. Расскажу, как борьба с мошенниками может обернуться личным вызовом. Все техники сопровождаются объяснениями, примерами и рекомендациями для самостоятельного повторения.
https://habr.com/ru/companies/oleg-bunin/articles/909506/
#spark #bigdata #data_engineering #билайн #онтико #оптимизация #многопоточность #apache_spark #beeline