#Big_Data

2026-02-06

Архитектура будущего: как должны эволюционировать наземные комплексы обработки данных дистанционного зондирования Земли

Аналитический обзор ключевых архитектурных проблем и перспективных подходов к построению систем обработки спутниковых данных на фоне взрывного роста группировок космических аппаратов и требований потребителей.

habr.com/ru/articles/993762/

#Архитектура #Облачные_вычисления #Космос #обработка_изображений #дзз #big_data #hpc #гис

2026-01-30

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

Всем привет! Меня зовут Антон Пилькевич, я более четырёх лет занимаюсь ранжированием и текстовой релевантностью в поиске Ozon. И вот настал момент, когда у меня появилось время поделиться своими мыслями. В этой статье вас ждёт увлекательное путешествие в ML-мир текстового поиска Ozon, а также знакомство с флорой и фауной существующих решений в этой области!

habr.com/ru/companies/ozontech

#поиск #machine_learning #deep_learning #big_data #nlp #ozon_tech

2026-01-28

Как перенести свои данные в Digital Q.DataBase из других СУБД

Привет, Хабр! В предыдущей статье мы рассказали, как установить Digital Q.DataBase на Astra Linux 1.8 и начать работу с этой российской СУБД, которая поддерживает нативную работу с диалектами MS SQL, PostgreSQL и Oracle. Сегодня мы поговорим о том, как перенести уже существующие данные в Digital Q.DataBase из других систем управления базами данных. Для решения поставленной задачи мы разработали инструмент – Мастер переноса БД. Он позволяет выгрузить структуру, данные и хранимую логику из уже развернутой БД на одной из трех СУБД (Oraсle, MS SQL и PostgreSQL) и загрузить их в Digital Q.DataBase без переписывания кода приложений в отличие от любых миграторов-конверторов.

habr.com/ru/companies/diasoft_

#субд #sql #postgresql #база_данных #хранение_данных #itинфраструктура #big_data #digital_qdatabase #миграция_данных #миграция_бд

Mix Mistress Alice💄MixMistressAlice@todon.eu
2026-01-25

"Many viral videos capitalize on Palantir being the evil company bent on surveillance and elimination of your privacy. And though I've talked about what I understood about Palantir for over a decade, I didn't really truly understand what they did. So I did some deep research and instead of confirming what other people have said, I was surprised to arrive at a different conclusion -- that Palantir is not the bogey man. Oh yes, it is a tool that can be used to kill people, but who's pushing the buttons?"—Rob Braxman Tech

Palantir kills people? But what if the real villain is closer to home? >

odysee.com/@RobBraxmanTech:6/p

#Palantir #mass_surveillance #research #big_data #AIP #Alex_Karp #Peter_Thiel #intelligence_data #surveillance_capitalism #AI #GAFAMs #video #precise_targeting #foundry #ICE #all_seeing_eye #software #Gotham #satellite_imagery #military #mission_planning #surveillance #killers #privacy #LLM #automated_agents #intelligence_agencies #spying #killing

2026-01-23

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Любая модель машинного обучения начинается с данных . Известное выражение «garbage in, garbage out» как нельзя лучше описывает главную уязвимость ML‑систем. В автоматизированном машинном обучении (AutoML) наиболее критичными точками являются процесс сборки данных и проблема мониторинга данных, в т.ч. в онлайне. Если процессы feature engineering и обучения наша библиотека формализует «из коробки» с помощью конфигурационных файлов и единых правил, то ответственность за загрузку и получение данных несет пользователь.

habr.com/ru/companies/vsk_insu

#bigdata #big_data #big_data_analytics #python #opensource #ml #learning #mlинженер #dataset #data_science

2025-12-25

Создание и обновление материализованных представлений (MV) в StarRocks: пошаговый разбор

В статье — пошаговый разбор создания и обновления материализованных представлений (MV) в StarRocks: от парсинга SQL (ANTLR) и инициализации свойств до сериализации метаданных (edit log, checkpoint, image) и планирования refresh. Разбираем синхронизацию партиций (range‑партиционирование), параметр partition_refresh_number и оптимизацию обновлений. Отдельный блок — поддержка нескольких выражений в UNION ALL и механизм VirtualPartitions из PR #60035, позволяющий корректно обновлять сдвинутые временными функциями (date_add/date_sub) диапазоны без пропусков. Материал будет полезен инженерам данных и тем, кто проектирует OLAP‑модели и MV под высокую нагрузку.

habr.com/ru/articles/980368/

#StarRocks #материализованные_представления #MV #Big_Data #OLAP #партиционирование #refresh #UNION_ALL #virtual_partitions #метаданные

Mix Mistress Alice💄MixMistressAlice@todon.eu
2025-12-24

"Sam Altman wants to make a deal with us: he'll give us a utopian future, if we give him... everything. $750 billion in investment. As much electricity as the population of India. And all of our data. And if he's wrong he'll still profit off of what comes next."—More Perfect Union

What Sam Altman doesn't want you to know >

youtu.be/l0K4XPu3Qhg?si=CYRYvF

#videos #Sam_Altman #just_trust_me_bro #OpenAI #the_facts #technocracy #data_plundering #crook #ecology #AI #resource_wasting #information_theft #tech_bros #techno_fascists #electricity #power_plants #OpenAI #tech_crooks #data #big_data #privacy #chatbots #chat_GPT #Peter_Thiel #world_coin #digital_ID #universal_basic_income

2025-12-23

Аналитическая инфраструктура для сбора и исследования данных Steam: архитектура, пайплайны, результаты

Steam — одна из крупнейших платформ цифровой дистрибуции игр, и одновременно огромный источник данных: каталоги игр, отзывы, достижения, ценовые метрики, активность игроков, региональные различия и многое другое. Однако прямого доступа к агрегированным данным у исследователей нет — их необходимо собирать вручную через Steam Web API и сторонние сервисы. В этом проекте мы разработали полноценный программный комплекс для автоматизированного сбора, хранения и анализа данных Steam . Построили двухуровневую архитектуру хранилища, реализовали оркестрацию чанков, разработали пайплайны работы с API и конфигурацию параллельного масштабирования. На основе собранных данных сформирован датасет объёмом десятки тысяч игр и сотни тысяч пользователей — и проведён базовый аналитический обзор рынка.

habr.com/ru/articles/979792/

#big_data #анализ_данных #Steam #Steam_Web_API

Mix Mistress Alice💄MixMistressAlice@todon.eu
2025-12-21

"Amazon Scam ? I ordered an expensive 4TB Samsung 9100 Pro SSD and received a bottle of cheap shampoo"—David “DEVO” Harry >

youtu.be/bCmJsZXNIws?si=vildfB

#video #funny #Amazon_scam #online_purchases #Amazon #boycott_amazon #big_data #AWS #fun

2025-12-16

Как установить Digital Q.DataBase на Astra Linux 1.8 и бесплатно работать с MS SQL, PostgreSQL и Oracle

Привет, Хабр! Мы много работаем с компаниями, которым необходимо использовать отечественное ПО для баз данных. В таких проектах часто уже есть инфраструктура на MS SQL Server, PostgreSQL или Oracle Database. Основной конфликт — требования регуляторов и высокая стоимость миграции логики приложений на другую СУБД. Мы создали продукт, который нативно понимает диалекты и позволяет работать с существующими базами без переписывания кода. В статье расскажем, как развернуть Digital Q.DataBase для начала работы с базами без долгой и затратной миграции.

habr.com/ru/companies/diasoft_

#субд #база_данных #PostgreSQL #Хранение_данных #ITинфраструктура #SQL #digital_qdatabase #астра #big_data

2025-12-02

Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.

habr.com/ru/companies/sberbank

#Apache_Spark #apache_iceberg #parquet #s3 #big_data

2025-11-26

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

habr.com/ru/articles/970388/

#StarRocks #ClickHouse #Big_Data #OLAP #миграция_данных #realtime_analytics #Data_Lake #Flink #оптимизация #DWH

2025-11-23

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Привет, Хабр! В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты. Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд. Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.

habr.com/ru/articles/969410/

#apache_nifi #java #etl #big_data

2025-11-21

СИБУР внедрил 10 000 беспроводных датчиков и сэкономил 320 млн рублей

У вас дома есть умная розетка? Или датчик протечки воды под раковиной? Если есть — вы уже знаете, что такое интернет вещей. Небольшой девайс висит на стене, следит за температурой или влажностью, а когда что-то идёт не так — шлет уведомление на смартфон. Теперь представьте то же самое, но не в квартире, а на нефтехимическом заводе площадью в несколько квадратных километров. Там не десять розеток, а тысячи труб, насосов, реакторов. И за каждым нужно следить. Именно для этого и придумали промышленный интернет вещей — IIoT. В этой статье разберем, как СИБУР внедрял промышленный интернет вещей: почему отказались от кабелей, как адаптировали датчики к морозам -56°С, какие параметры контролируют на заводе и зачем понадобилась собственная платформа вместо готового решения.

habr.com/ru/companies/sibur_of

#сибур_цифровой #IIoT #беспроводные_технологии #LoRaWAN #Промышленный_IoT #Предиктивная_аналитика #промышленная_автоматизация #Big_Data #Kafka #цифровое_производство

2025-11-17

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath. Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно. Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно! Давайте узнаем, как именно

habr.com/ru/articles/958362/

#sql #etl #apache_spark #java #hadoop #big_data #big_data_solutions #big_data_tools #интерпретатор

2025-11-11

Что лучше — код или drag-and-drop в BI? Дайте и то, и другое

В последние годы анализ данных прошел путь от диаграмм в Excel до сложных интерактивных дашбордов, которые помогают принимать взвешенные решения. Одновременно с этим сформировалось устойчивое представление о дашборде как о наборе диаграмм, таблиц и фильтров, собранных в визуальном редакторе методом drag-and-drop. Этот подход действительно сделал аналитику доступной: он быстрый, понятный и не требует знаний в программировании. Но! В нашей работе все чаще появляются нетривиальные задачи, поэтому помимо Self-Service мы, команда интерактивной аналитики Инновационного центра «Безопасный транспорт», находим новые способы реализации интересных проектов. В этой статье мы хотим поговорить о том, какую пользу приносит разработка в BI.

habr.com/ru/companies/visiolog

#аналитика #дашборд #обработка_данных #хранение_данных #big_data #bi

2025-10-22

Как использовать Clickhouse без боли

ClickHouse — одна из самых популярных систем для анализа данных. По информации TheirStack, этот инструмент использует более 3 700 компаний по всему миру. У ClickHouse быстрая аналитика, эффективное сжатие и отличное масштабирование. Но у системы есть и недостатки — ограниченная поддержка UPDATE и DELETE, а также сложная миграция. Привет, Хабр! Меня зовут Михаил Филимонов, я руковожу разработкой хранилища данных в группе Магнит OMNI. В этой статье я расскажу о проблемах работы с ClickHouse, как их решать и какие инструменты для этого потребуются.

habr.com/ru/companies/magnit/a

#clickhouse #магнит #big_data #data_engineering #data_warehouse #highload #базы_данных

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst