#Big_data

2025-06-19

new workz!

doing a run of posters to sell physical, here are the downloads! a3 printable!

the poster with BLUE and GREEN contains 3D STRUCTURES from BIG DATA 005 and 006, and the poster of BLUE shows the 3D WORK from BIG DATA 006, with background from the NOIZE SERIES that were created for each booklet.

#fediart #freesoftware #big_data

2025-06-17

new release!

BIG DATA 006!

download here:

extended output from series made late last year to current day. print edition on the presses now, hi definition downloads available!

featuring BLUE THE RABBIT

#fediart #freesoftware #big_data

preview page from BIG DATA 006, showing wireframe detailed 3d shapes made from psudorandom text on top of rgb noise background with additional pixel detail. colours include green and blue with grey and black.second preview page from BIG DATA 006, showing further wireframe detailed 3d text with rgb noise textures in bg, and also uv mapped to the 3d structures! colours here are green blue purple and grey.third preview page from BIG DATA 006! showing 3d wireframe detailed ttext with rgb noise textures in bg and also uv mapped to the text structures. the text is made from pseudorandom virtual device output converted into two and three dee thhrough a circuitous course of free softwarez. colours here are green blue and purple.
2025-06-11

update!

begun production of BIG DATA 006!

pdf download n print runs incoming!

#fediart #freesoftware #big_data

preview page from BIG DATA 006, showing 3D RENDERS on top of 2D NOISE BG with WHITE PIXEL DETAIL. the 3d is wireframed and is made from text converted into 3d then textured n edited.another preview page from BIG DATA 006! showing 3D TEXT RENDER on top of 2D NOISE BG.third preview page from BIG _DATA_006, showing 3D TEXT RENDER on top of 2D NOISE BG with PIXEL DETAIL. the render shows textured 3D letters with floating coloured shapes, wireframed.
Poujol 𝖱𝗈𝗌𝗍 ✅poujolrost@mstdn.jp
2025-06-06

Je propose le terme #ianog pour désigner une Intelligence Artificielle NOn Générative.

La famille de celles qui sont *a priori* utile (analyse d'image médicales ou flux réseau, reconnaissance vocale, algo de GPS, gestion de #big_data...) et bien souvent moins gourmandes en ressources (carte graphique, processeur, RAM, eau, électricité, #foncier...).

Prononciation [yanog] et non [i-a-nog] ou [i-a-n-o-g].

#IA #intelligenceArtificielle

[Version anglophone : mstdn.jp/@poujolrost/114638241 ]

2025-06-06

Рост продаж с одновременным ростом конверсии: подход билайн к внедрению AutoML в маркетинг

Выбрать лучшую рекомендацию для клиента в условиях ограничений коммуникационной нагрузки можно через оценку релевантности продукта, его влияния на ценность клиента для принятия взвешенного решения, а также отклика в каналах взаимодействия. В Службе персонализации предложений билайн мы занимаемся персонификацией продуктовых предложений до абонента. В статье рассмотрим подход, который мы для этого используем: углубимся в создание единого репозитория предложений и описание логики категоризации и набора в кампании для коммуникации с нашими клиентами.

habr.com/ru/companies/beeline_

#cvm #продвижение_продукта #машинное_обучение #big_data

2025-06-05

Пишем движок SQL на Spark. Часть 8: CREATE FUNCTION

В предыдущих сериях ( 1 • 2 • 3 • 4 • 5 • 6 • 7 • Ы ) рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL, заточенный на задачи подготовки и трансформации наборов данных, и работающий как тонкая прослойка поверх Spark RDD API. Штука получилась довольно продвинутая, с поддержкой императивщины типа циклов/ветвлений/переменных, и даже с поддержкой пользовательских процедур. И в плане этой самой императивщины расширяемая: может импортировать функции из Java classpath, равно как и операторы выражений. То есть, если необходимо, можно написать функцию на Java, или определить новый оператор, и использовать потом в любом выражении на SQL. Круто? Ещё как круто. Но как-то однобоко. Если в языке у нас поддерживаются функции, то почему бы не дать нашим пользователям определять их самостоятельно? Вот прямо через CREATE FUNCTION ? Тем более, что вся необходимая для этого инфраструктура уже вовсю присутствует. Да и процедуры на уровне интерпретатора у нас уже поддерживаются ведь… Функция для затравки.

habr.com/ru/articles/915964/

#etl #apache_spark #java #hadoop_stack #big_data #big_data_tools #big_data_solutions #sql #никто_не_прочитает_эту_статью #написанную_для_отчётности_по_гранту

2025-06-05

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

habr.com/ru/companies/oleg-bun

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

2025-06-02

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

habr.com/ru/companies/lentatec

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

2025-05-27

Иногда приходится¹ копаться² в кишках³ Apache Spark

¹ …просто потому, что другого варианта добиться необходимого результата тупо не существует. ² и да, довольно-таки глубоко. ³ нет, серьёзно! Давайте рассмотрим следующий бизнесовый кейс. Дано: реально большие данные. Очень много датасетов по много терабайтов каждый, — в сумме объём тянет на петабайты. Лежат в облаке, но это не важно. Важно, что мы эти данные покупаем в «сыром» виде, каким-то образом «готовим», а потом перепродаём конечному потребителю. Требуется: при подготовке каждого из датасетов разделить его согласно значениям одного или нескольких полей, составляющих его записи, на несколько. И это одна из особенно часто встречающихся в нашем процессе операций. Довольно-таки сложный, продвинутый ETL у нас. Поясню на типичном примере.

habr.com/ru/articles/913244/

#кейс #etl #apache_spark #java #pipeline_automation #hadoop_stack #big_data #big_data_tools #big_data_solutions #sql #никто_не_прочитает_эту_статью #написанную_для_отчётности_по_гранту

2025-05-19

Язык Julia: что это и почему он популярен в научных вычислениях

Согласно индексу TIOBE , Julia входит в топ-50 самых актуальных языков программирования в 2025 году и занимает в рейтинге 34-ю строчку. Julia получил признание благодаря универсальности, скорости, понятному синтаксису и множеству других достоинств, о которых мы расскажем в статье. Этот идеальный вариант для научных вычислений в любых отраслях — от анализа огромных массивов данных до расчетов прочности архитектурных объектов. Узнаем, каковы особенности и преимущества языка программирования Julia, почему он популярен в научных вычислениях, чем отличается от других топовых языков и где применяется.

habr.com/ru/articles/910542/

#c #инструменты #производительность #big_data #python #машинное+обучение #hf #работа_в_it

2025-05-17

Внедрение программного обеспечения Экстрактор 1С в компании Level Group: результаты и перспективы

Компания обратилась к нам для решения задачи по сокращению времени получения данных и оптимизации работы команды разработки 1С. Level Group – один из ведущих застройщиков бизнес-класса в Москве. За три года компания утроила свои масштабы, достигнув оборота в 100 миллиардов рублей в 2024 году. Отличительные черты Level Group – это современные и стильные жилые комплексы, продуманные планировки квартир и оригинальные дизайнерские решения.

habr.com/ru/articles/910256/

#анализ_данных #аналитика_данных #bi #big_data #экстрактор #экстрактор_1с # #1сбитрикс #аналитика

2025-05-15

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем

Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета? Ответ парадоксально прост и сложен одновременно: компании систематически недооценивают реальную совокупную стоимость владения BI-системами. Наши наблюдения показывают, что большинство заказчиков концентрируются исключительно на очевидных статьях расходов, игнорируя множество "скрытых" факторов, которые неизбежно проявляются по мере развития проекта. За годы работы с десятками проектов внедрения аналитических систем мы в GlowByte выявили закономерность — даже опытные ИТ-директора порой не учитывают до 40% реальных затрат при планировании бюджета на BI-инициативы. В этой статье я поделюсь инсайтами о наиболее типичных "финансовых ловушках", которые подстерегают компании на этом пути.

habr.com/ru/companies/glowbyte

#big_data #бизнесаналитика #внедрение_bi #управление_проектами_и_продуктами #бюджетирование #selfservice #визуализация_данных #ошибки_управления #finedayonline #glowbyte

2025-05-10

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

habr.com/ru/articles/908220/

#java #apache_flink #big_data #big_data_analytics #big_data_solutions #architecture #big_data_architecture #debezium #kafka #cdc

2025-05-07

DBT: трансформация данных без боли

Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool). Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов:

habr.com/ru/articles/907540/

#dbt #big_data #data_ingineering #аналитика_данных #трансформация_данных #elt #sql #dataops

2025-04-24

Оптимизация стратегии взыскания с помощью ML-моделей

Привет! Меня зовут Мария Шпак, я лидер команды collection стрима моделирования розничного бизнеса в Департаменте анализа данных и моделирования банка ВТБ. Наша команда занимается разработкой моделей машинного обучения для различных процессов, в совокупности служащих для финансового урегулирования. Основной заказчик этих моделей – соответствующий департамент банка, целью которого является помощь клиентам, допустившим просрочку платежа или находящимся в графике, но имеющим риск просрочки (Pre-Collection). Наши коллеги предлагают клиентам различные инструменты урегулирования этой проблемы и в большинстве случаев добиваются скорейшего возврата клиента в график платежей и в статус добросовестного заемщика. Оптимизация стратегий финансового урегулирования предполагает учёт разных параметров ситуации клиента: причины возникновения просрочки, степени серьезности возникших у него проблем, а также наиболее удобных и эффективных способов установить с ним контакт.

habr.com/ru/companies/vtb/arti

#Машинное_обучение #big_data #collection #python

2025-04-22

Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

habr.com/ru/companies/kryptoni

#spark #apache #comet #DataFusion #большие_данные #анализ_данных #data_engineering #data_scientist #big_data #оптимизация

2025-04-16

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

habr.com/ru/companies/yandex/a

#ytsaurus #map_reduce #mapreduce #большие_данные #big_data

2025-04-15

Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще. В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink ( стримить из Kafka банально, а так заодно пощупаем документоориентированную БД ). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7. В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо? Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.

habr.com/ru/companies/ru_mts/a

#apache_flink #стриминг_данных #обработка_потоков #big_data #распределенные_вычисления #realtime_analytics #data_engineering #MinIo #Flinkkubernetesoperator

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst