#SIMD

Boozook 🦀 :playdate:boozook@mastodon.gamedev.place
2025-12-12

Hey all! 👋🏻
I’m looking for some shader-like pipeline/#rendering system/library/framework for 1-bit graphics with 2x #framebuffer (double-buffered — actual & previous) with #blitting on #SIMD and #SWAR? CPU-only, mostly targeting ARM32/64/Thumb1.
I understand that it’s rare and mostly impossible to exist, so I just need some source-based guidance/hints of oldschool/demoscene- tricks and algorithms which I don’t know yet (I know a lot already, I’m 40)) and of course i can port.

This is right up my alley. A discussion about the merits of the various #simd implementations. There is even a mention of #linaro and #arm in the episode. #FLOSS Weekly: Episode 857: SOCification b27a1a7a-dbb9-4922-ac3e-601e2d #podcast

Michał Fitamichalfita
2025-12-03

@riffraff Functional approach as more strict opens the compiler new doors for optimisation of the code going up to use of .

Robin Palotairobinp
2025-11-26

"Recommended reading: any paper by Guy Blelloch" - abhiroop.github.io/mastersthes

2025-11-26

Итоги встречи ISO C++ на Гавайях: начинаем полировку стандарта С++26

Привет! На связи Антон Полухин из Техплатформы Городских сервисов Яндекса. Сегодня я расскажу о ноябрьской встрече Международного комитета по стандартизации языка программирования C++, в которой принимал активное участие. Это была первая из встреч, связанных с «полировкой» C++26. Другими словами, новые фичи C++ пока не появятся — комитет должен только проработать замечания всех стран-участников, включая наши замечания от России. Однако от плана немного отступили и втащили некоторые новинки как ответы на пожелания участников комитета: std::integer_sequence оброс новой функциональностью, а std::format научился в constexpr . Помимо этого, поправили множество багов, перековыряли связку Hardening + Contracts, внесли улучшения во многие части стандартной библиотеки.

habr.com/ru/companies/yandex/a

#contracts #reflection #c++26 #с++26 #с++_программирование #simd #compiletime #compile_time #compilergenerated_code #hardening

GripNewsGripNews
2025-11-22

🌘 Anukari 在 CPU 上的運行(二):CPU 優化
➤ 從 GPU 轉戰 CPU:解鎖 Anukari 的潛在效能
anukari.com/blog/devlog/anukar
本文是 Anukari 3D 物理模擬器開發日誌的第二部分,深入探討瞭如何將原本為 GPU 設計的程式碼進行 CPU 優化。作者首先嘗試了直接將 GPU 程式碼編譯至 CPU 並利用 SIMD 指令(SSE 和 NEON)來加速 float3 向量運算,取得了顯著的效能提升。隨後,作者分析了 GPU 設計在 CPU 上效率不彰的原因,主要歸結於記憶體存取模式和 SIMD 不友善的控制流程。文章最後介紹了透過改變資料結構和編譯器自動向量化等方法,進一步提升 CPU 版本的效能,使其能充分利用 CPU 的 SIMD 潛力。
+ 這篇技術文寫得很紮實!看到作者從 GPU 轉向 CPU 時所做的優化細節,特別是 SIMD 的應用,讓我對程式效能的極致追求有了更深的認識。

2025-11-21

Ternlog inspired ternaryish compare idea:

8-bit immediate: (xcmp vd, vs1, vs2, imm)
* 4-bit: 2x cmp: <, <=, ==, one entry is left, could be something like same-sign
* 3-bit: 1x op: and, nand, andn, xor, or, nor, orn, xnor
* 1-bit: (vd cmp1 vs1) op (vd cmp2 vs2); (vd cmp1 vs1) op (vs1 cmp2 vs2)

Could be only 7-bit immediate in a 64b encoding with seperate vd. This probabpy makes more sense, as it doesn't read a vector and write a mask to the same vector register.

The SC25 paper "A RISC-V Vector Extension for Multi-word Arithmetic" (dl.acm.org/doi/pdf/10.1145/373) had something similar with "vpar". That was 4R1W, but 3R1W makes more sense in SIMD ISAs and RVV.

#simd #riscv #rvv

Video Processing WikiPythonLinks
2025-11-20

Libmpix on Zephyr OS is an open source pipeline for image processing. and support are in progress.

libmpix.org/


Via:
wiki.pythonlinks.info/libmpix

LibMpix Logo
2025-11-10

I've taken some first baby steps to writing some #simd code by writing some replacements for mosquitto_pub_topic_check().

This assumes a string is already valid UTF-8, then checks for length, presence of + or # characters, and counts the topic hierarchy levels, then returns yay or nay. It's by far the easiest check I have to make.

I've written a quick plugin for the public #mqtt #mosquitto server that collects a list of unique publish and subscribe topics to use as a test corpus.

2025-11-10

SIMD – neboli Single Instruction, Multiple Data – znamená, že procesor může jednou instrukcí zpracovat více datových prvků najednou. Typicky to znamená, že místo sčítání dvou čísel přičtete dvě sady čísel paralelně. To může přinést výrazné zrychlení například při zpracování obrazu, audia nebo numerických výpočtů.

Pokud již SIMD znáte, tato tabulka je vše, co budete potřebovat. A pokud s SIMD teprve začínáte, tabulku pochopíte do konce tohoto článku

https://zdrojak.cz/clanky/stav-simd-v-rustu-v-roce-2025/

2025-11-09

Два универсальных SIMD алгоритма

Большинство SIMD инструкций узконаправленны, например применяют бинарную операцию параллельно для нескольких чисел, упакованных в длинный регистр. Применение таких операций прямолинейно и в большинстве случаев компилятор сам оптимизирует код с использованием таких инструкций. Например компилятор легко соптимизирует таким образом проверку несложного предиката на массиве или например суммирование элементов массива . Есть однако и более универсальные инструкции, в частности довольно много всякого рода манипуляций с битами внутри регистра. В этой статье хочу рассказать о двух таких инструкциях: уже давно присутствующей PSHUFB и довольно новой GF2P8AFFINEQB , расскажу как с их помощью делать побайтовую обработку общего вида и приведу пару примеров с известными операциями такими как popcount, подсчет четности, разворот битов числа.

habr.com/ru/articles/964608/

#simd #конечные_поля #с++ #assembler

2025-11-09

Парсим XML и JSON на ассемблере

Отобрал для вас несколько крайне интересных, но малоизвестных проектов, реализующих работу с XML и JSON. Кроссплатформенных и без зависимостей. На чистом С и ассемблере.

habr.com/ru/articles/964522/

#json #xml #nasm #assembler #c_language #simd #simdjson #freebsd

N-gated Hacker Newsngate
2025-11-05

In 2025, Rust's continues, involving more tables and than a conspiracy theory convention. 🤯🔍 Apparently, the of is just as elusive as actually understanding what SIMD stands for without a PhD. 📚🤦‍♂️
shnatsel.medium.com/the-state-

GripNewsGripNews
2025-11-05

🌘 Rust 在 2025 年的 SIMD 狀態
➤ 深入解析 Rust SIMD 技術現況與實踐策略
shnatsel.medium.com/the-state-
這篇文章深入探討了 Rust 語言在向量化指令集(SIMD)支援的現狀與未來。作者 Sergey \"Shnatsel\" Davidoff 概述了 SIMD 的基本概念、其在不同 CPU 架構(x86、ARM、WebAssembly)上的發展情況,以及在 Rust 中實現 SIMD 的多種技術途徑。文章詳細比較了自動向量化、迭代器封裝、可移植 SIMD 抽象以及原始指令集(intrinsics)這幾種方法,並分析了它們各自的優缺點、適用場景及成熟度,同時也指出了當前(2025 年)Rust 在 SIMD 應用上仍面臨的挑戰,如浮點數處理的限制、對新指令集支援的不一致性,以及跨平臺兼容性的考量。
+ 這篇文章解釋得很清楚,尤其是在 x86 架構上不同 SIMD 指令集版本導致的兼容性問題,以及

GripNewsGripNews
2025-11-05

🌘 向量化運算:樂趣與效能的結合
➤ 解鎖 IBM Power 處理器的隱藏效能寶藏
ibm.com/support/pages/vectoriz
IBM Power 處理器內建名為 AltiVec、VMX 或 VSX 的向量處理單元,能透過單一指令執行多個運算,大幅提升效能。文章詳細介紹瞭如何利用 C 語言配合特定編譯器旗標和函數,手動實現向量化運算,並以尋找陣列最大值為例,對比了傳統方法與向量化方法的程式碼複雜度和效能差異。結果顯示,對於較大的資料集,向量化能帶來顯著的效能提升,但程式碼複雜度也隨之增加。
+ 這篇文章深入淺出地解釋了向量化運算的概念,並提供了實際的程式碼範例。對於想提升程式效能的開發者來說,是非常寶貴的參考資料。
+ 雖然向量化能大幅提升效能,但程式碼的可讀性似乎降低了不少,這在維護上可能會是個挑戰。不過,看到實際的效能差異,還是覺得很值得。
Power 處理器

2025-11-02

[Перевод] Насколько Java быстрая?

Некоторые считают Java раздутым монстром, а Rust — чемпионом производительности. Но что, если взглянуть на современную Java с Vector API и многопоточностью? В новом переводе от команды Spring АйО посмотрим на запуск масштабной симуляции частиц и сравним результаты. Правда ли, что бывалая Java всё ещё умеет удивлять? Сравнение performance-а языков всегда было холиварной темой. Рекомендуем расценивать статью как приглашение к конструктивной дискуссиии, а не как призыв к конкретному действию.

habr.com/ru/companies/spring_a

#java #kotlin #performance #ruby #simd

Jan :rust: :ferris:janriemer@floss.social
2025-10-29

A story about never ever giving up...❤️‍🔥

After several weeks, questioning my life choices, I've finally figured out why my #Whisper #SpeechToText system had been so slow on #Windows:

It was because apparently the #Rust-FFI wrapped #CPlusPlus code (Whisper.cpp) didn't compile with AVX and AVX2 enabled (#SIMD!). I've tried it on two Windows machines (both AVX-capable). On one of the machines, with #Linux, it has successfully detected AVX/AVX2, though and has run fast.

1/?

2025-10-27

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst