#hadoop

2025-12-07

Искусственный интеллект без иллюзий: как не сжечь бюджет компании на хайпе (Часть 2)

Это вторая часть цикла публикаций, где мы говорим не о теории искусственного интеллекта, а о суровой реальности его внедрения в бизнес. В первой части мы обсуждали стратегические ловушки ( habr.com/ru/articles/969094/ ), а теперь настал черед уровня данных, который оказался для нас минным полем.

habr.com/ru/articles/974288/

#llm #hadoop #data_mesh

2025-11-27

Файловое хранилище Wildberries: бескомпромиссный HighLoad

Привет, меня зовут Иван Волков, я CTO продукта CDN MediaBasket в Wildberries. Это большое распределенное файловое хранилище, используемое различными внутренними продуктами Wildberries. Одним из продуктов, с которым взаимодействуют внешние клиенты, является каталог товаров. Это ставит перед хранилищем высокую планку по оптимизации и готовности к экстремальным нагрузкам. В этой статье я расскажу, какие решения мы использовали в архитектуре продукта и как при миллионном RPS мы доставляем картинки пользователям за считанные миллисекунды.

habr.com/ru/companies/wildberr

#файловое_хранилище #шардирование #шардинг #highload #хайлоад #схд #ceph #hadoop #wildberries #drpaster

Python Job Supportpythonjobsupport
2025-11-22

Data Science Roadmap 2025 | Become a Data Scientist from Scratch!

Data Science Roadmap 2025 | Become a Data Scientist from Scratch! --- Description: Want to become a Data Scientist in 2025? source

quadexcel.com/wp/data-science-

2025-11-17

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath. Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно. Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно! Давайте узнаем, как именно

habr.com/ru/articles/958362/

#sql #etl #apache_spark #java #hadoop #big_data #big_data_solutions #big_data_tools #интерпретатор

2025-11-07

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

habr.com/ru/companies/datasapi

#starrocks #trino #impala #mpp #bigdata #dwh #lakehouse #datalake #s3 #hadoop

2025-10-23

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum , в том числе по методике TPC-DS ). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

habr.com/ru/companies/datasapi

#starrocks #trino #lakehouse #impala #spark #bigdata #datalake #dwh #hadoop #s3

2025-10-08

Сокращаем трудозатраты при выводе витрин на Hadoop

Привет, друзья! Я Олег Васильев, владелец продукта Dream DE. В этой статье расскажу, как мы научились быстро и эффективно выводить витрины на Hadoop в эксплуатацию, или как мы за один квартал вывели 26 инициатив в рабочую среду силами четырёх инженеров по данным.

habr.com/ru/companies/sberbank

#витрины_данных #hadoop #прототипы

2025-08-28

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0 , разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API . Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0 . Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции. Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

habr.com/ru/companies/arenadat

#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность

2025-08-21

От реляционных СУБД к экосистеме Hadoop

Привет, Хабр! Недавно я понял, что не знаю, что такое Hadoop. (На этом моменте становится понятно, что данная статья ориентирована на людей, которые не имеют экспертизы и реального опыта взаимодействия с продуктами экосистемы Hadoop) Сам я являюсь разработчиком, и ежедневно взаимодействую с различными СУБД – в основном, с пресловутой PostgreSQL. Каково же было мое удивление, когда я узнал, что на проде в эту БД данные попадают не напрямую – а с какого-то Greenplum, а туда они, в свою очередь, приходят с некоего Hadoop. В этот момент я решил узнать, чем обоснована необходимость использования этих инструментов и что они из себя представляют.

habr.com/ru/articles/939520/

#Hadoop #yarn #spark #рбд #rdbms #olap

Brad L. :verified:reyjrar@hachyderm.io
2025-08-02

There's a lot talk about "ZeroDisk" infrastructure backed by S3. The pitch is "move your data from locally attached NVMe storage to S3 and your applications will scale easier and be more performant!"

Maybe I'm getting too old for this shit, but I swear to dog this is the 4th such cycle in my career:

1. NFS
2. iSCSI / Fibrechannel
3. Hadoop / HDFS
4. ZeroDisk with S3

Am I the only one that's like: "wait, move TBs of data to S3 from NVMe to increase performance? Are you high?"

It doesn't work, so you scale up. Now you're back to local NVMe "cache disks" running instances as expensive as the locally attached NVMe instances when you add those costs to your S3 bill. The performance is worse because of course it is.

It always comes back to the two hard problems in computer science: naming things, cache invalidation, and off-by-one errors. 😂

#zerodisk #s3 #hadoop #cache #datalake #GetOffMyLawn

2025-06-17

No response yet to my #syslog_ng #HDFS destination question:

syslog-ng.com/community/b/blog

Most likely it means that we can drop #Hadoop support from syslog-ng without any complaints. But I rather repeat my question a few more times on my #socialmedia accounts...

2025-06-11

Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API. Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse . Сравним производительность HDFS и объектных хранилищ с S3 API . На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC). Тесты, графики, инсайды

habr.com/ru/companies/arenadat

#bigdata #hdfs #s3 #hadoop #data_lake #lakehouse #impala #spark #хранение #minio

2025-06-02

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec

habr.com/ru/companies/gnivc/ar

#spark #join #hadoop #bigdata #mapreduce

2025-05-23

Command-line Tools can be 235x Faster than your Hadoop Cluster
"This find | xargs mawk | mawk pipeline gets us down to a runtime of about 12 seconds, or about 270MB/sec, which is around 235 times faster than the Hadoop implementation."

#complexity #ShellTools #RightToolForTheRightJob #Hadoop #computing

2025-05-19

Как я удалил clickstream, но его восстановили из небытия

Всем привет! Я Дмитрий Немчин из Т-Банка. Расскажу не очень успешную историю о том как я удалил данные и что из этого вышло. В ИТ я больше 12 лет, начинал DBA и разработчиком в кровавом энтепрайзе с Oracle. В 2015 году познакомился с Greenplum в Т, да так тут и остался. С 2017 года стал лидить команду, потом все чуть усложнилось и команда стала не одна. Возможно, вы меня могли видеть как организатора Greenplum-митапов в России. Но команда командой, менеджмент менеджментом, а руки чешутся..

habr.com/ru/companies/tbank/ar

#parquet #удаление_данных #fail_story #hadoop

2025-04-24

Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML

Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999 расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.

habr.com/ru/companies/rshb/art

#spark #arenadata #hadoop #datalake #витрина_данных #ai #платформа #livy

2025-04-23

Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили? Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве. Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

habr.com/ru/companies/T1Holdin

#hadoop #spark #airflow #hive #HDFS #Apache_Parquet #ddl #sql #eav #json

Marcin Wojtczakmarcinbigdata
2025-03-25

Opisałem jak działa u nas zarządzanie danymi za pomocą OpenZFS: kicb.pl/adaptacja-strategii-za może będę żałował, ale w końcu to pierwszy post - krytyka mile widziana ;) 📖

OpenZFS GNU/Lnux Debian trixie/sid Apache HadoopHDFS NAS by marcin ^^ gnulinux ^^ pl
2025-03-17

Unlock the potential of #Hadoop for large-scale data processing. Niklas Lang's comprehensive guide covers Hadoop's architecture, installation in different environments, and essential commands.

towardsdatascience.com/masteri

Joseph (filthy on opsec)recourse@mastodon.sdf.org
2025-03-07

Any hadoop experts out there looking for some consulting? Got a hadoop cluster that needs some expert TLC.

#hadoop #bigdata #fedijobs

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst