#mapreduce

Jan Marthedal Rasmussenjanmr@mathstodon.xyz
2025-12-31

The paper "MapReduce: Simplified Data Processing on Large Clusters" was published in December 2004. Map/reduce operations had been known for decades, but the paper was instrumental in the area of practical distributed computing and "big data". research.google.com/archive/ma #distributed #computing #mapreduce #functional #programming

JimmyLvjimmylv
2025-12-28

✅ Summary: Turning Data into Knowledge

Map-Reduce for length, Prompt Chain for depth, and Dynamic Prompting for adaptability.
We push LLM potential to the limit.

Next: **3.3 RAG and Semantic Search**.
When you have 1000 videos, how do you find that exact second you need? 🚀

JimmyLvjimmylv
2025-12-28

✅ 总结:从原始数据到结构化知识

通过 Map-Reduce 解决长度,Prompt Chain 解决深度,Dynamic Prompting 解决适应性。
BibiGPT 将 LLM 的潜力发挥到了极致。

下一站:**3.3 RAG 与语义搜索**。
当你有 1000 个视频时,如何瞬间找到你想看的那一秒?🚀

2025-12-25

Обучаем ML-модели и запускаем batch-инференс на YTsaurus, как в Яндексе

Привет! Меня зовут Алексей Архипенко, я руковожу группой разработки ML‑инфраструктуры в команде YTsaurus. Мы часть Yandex Infrastructure и предоставляем пользователям внутри Яндекса инфраструктурный фундамент для самых разных задач машинного обучения. YTsaurus — основная платформа для хранения и обработки данных Яндекса, которая доступна на GitHub под лицензией Apache 2.0. Это позволяет всем желающим загрузить систему на свои серверы, а также дорабатывать её под свои нужды. Мы уже писали в прошлых постах про её выход в опенсорс и дальнейшее развитие , а также кейсы использования в рекламе . Сегодня расскажу, как Яндекс запускает в ней почти все ML‑обучения и batch‑инференс.

habr.com/ru/companies/yandex/a

#ytsaurus #ml #batch_processing #gpu #gpu_вычисления #mapreduce #map_reduce

2025-12-06

Создаём мини-фреймворк для MapReduce в Scala с конкретной реализацией

Статья демонстрирует построение минималистичного MapReduce-фреймворка на Scala для локальных экспериментов. Рассматриваются стадии Map , Shuffle и Reduce с ленивыми вычислениями через Iterator , а также абстракции ввода/вывода IO и локальные исполнители с виртуальными потоками.

habr.com/ru/articles/966986/

#MapReduce #Scala #java21 #многопоточность #функциональное_программирование #sbt #фреймворк #jvm #bigdata #data_engineering

2025-10-09

Распределенные вычисления в Apache Ignite 3

В статье разбираются возможности распределённых вычислений в Apache Ignite 3 . Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.

habr.com/ru/articles/954928/

#distributed_computing #распределённые_вычисления #colocated_computations #коллокационные_вычисления #inmemory_database #java #apache_ignite_3 #mapreduce

Knowledge Zonekzoneind@mstdn.social
2025-06-23

#ITByte: #MapReduce is a programming model and framework designed for processing large datasets in a parallel and distributed manner.

It's particularly useful for tasks that can be broken down into smaller, independent pieces.

knowledgezone.co.in/posts/What

2025-06-10

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе? Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы. Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

habr.com/ru/companies/oleg-bun

#ytsaurus #mapreduce #olap #oltp #антифрод #распределенные_системы #оптимизация #обработка_данных #хранилища_данных

2025-06-02

Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта. Вот здесь :) Первое, что рассмотрим - это конструктор кейс-класса 1. Конструктор SortMergeJoinExec

habr.com/ru/companies/gnivc/ar

#spark #join #hadoop #bigdata #mapreduce

2025-04-16

YTsaurus — два года в опенсорсе: чего мы достигли и куда движемся

20 марта мы провели митап для пользователей YTsaurus — главной платформы для хранения и обработки больших данных в Яндексе от разработчиков из Yandex Infrastructure, которая уже успела зарекомендовать себя за пределами компании. Этот текст во многом основан на моем выступлении на митапе: я кратко расскажу, чего мы достигли, какие улучшения внесли и что ждёт пользователей в ближайшем будущем.

habr.com/ru/companies/yandex/a

#ytsaurus #map_reduce #mapreduce #большие_данные #big_data

Tedi Heriyantotedi@infosec.exchange
2025-03-30

Leveraging map-reduce and LLMs for enhanced cybersecurity network detection: corelight.com/blog/map-reduce-

#ndr #mapreduce #llm

Multi Purr Puss :verified:platymew@layer8.space
2025-01-24

#YouTube might've "fixed" their #JavaScript workload.

A few weeks ago, i've mentioned how i've grown quite fond of the #Firefox process manager (about:processes), because i can just "unload" groups of tabs.

You might recall; that whole tirade about #MapReduce. 😅

meanwhile, a few software updates later

…for a few days now, i don't seem to have to employ the process manager, quite as often as before. (100% single-core spikes reduced drastically)

Who-ever made it happen, thanks, mate! 🖖 😉 🍻

Doug Whitfield [Minneapolis]musicman
2025-01-20

so, gonna write some stuff on and maybe clustering. Also, was suggested but I think that may be too broad of a topic for this. I did cover Machine Learning in a blog back in 2023, but this time is for KB, not blog: openlogic.com/blog/using-cassa

Hmm, perhaps some sort of ML performance (as in disk io, etc not accuracy) document would be good but still, where to even start.

If anyone has beginner resources, I'll likely be pointing folks to some resources

Multi Purr Puss :verified:platymew@layer8.space
2025-01-02

How many seconds did it take to read this #MapReduce thread?

Yeah, Google made an hour-long presentation out of it.

"you get your shiz together, and you deal with it" ← that's MapReduce! 🤣

…of course, you get to do some extra steps, when you want to massively parallelise processing. 😅

Multi Purr Puss :verified:platymew@layer8.space
2025-01-02

#MapReduce, as far as i understood it; you "do work", acquire a MAP of your workload (this is me, opening a bunch of tabs), and then you REDUCE it, by processing the heap.

When i 1st heard of the "MapReduce" thing, it was more impressive than it actually is! Thinking about it, it's kinda basic, actually. 😅

Multi Purr Puss :verified:platymew@layer8.space
2025-01-02

I've grown quite fond of the #Firefox Process Manager (about:processes)!

Using lots of #YouTube tabs tends to accumulate 1-3gig of "stuff" in memory, per group of 6-ish. A 100% single-threaded load, for several seconds!

…everything grinds to a halt 🐌

Technically, i really don't need all the tabs to be "active" - i just nuke 'em (click the tab-group's "X") …the tabs remain, but they become "unloaded", memory is being freed-up, CPU-load reduced!

My use-case is what Google taught; #MapReduce! 😅

2010-09-13

"Given the psychology of geekdom, the charm of #mapreduce is understandable" -- Orri Erling (#Virtuoso PM @OpenLink). LOL! #linkeddata #qotd

2010-03-18

Nice post about #dbms technology and the many misconceptions re. #rdbms esp. in light of #nosql world views: http://bit.ly/aEbHYp #mapreduce

2024-11-13

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие. Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал , как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

habr.com/ru/companies/yandex/a

#ytsaurus #mapreduce #map_reduce #инфраструктура #большие_данные #big_data #алгоритмы

2024-10-27

The actual work the build is doing isn't that interesting, but it has to run your functions against around 150+ combinations of inputs to define production environments. Think #terraform , but built in-house.

Since this is basically a #MapReduce I'm thinking I can make this much faster just by parallelizing those maps. But again, Ruby is single-threaded.

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst