#AvX

2026-01-28

Ускорение вычислений в алгоритме DRS-виртуализации через векторизацию

Переписать решение с Python на Go и получить ускорение в 35 раз — звучит приятно. Но можно ведь пойти дальше, вспомнить о возможностях современных процессоров и увеличить отрыв Go до 200 раз! Статья написана по мотивам доклада для

habr.com/ru/companies/oleg-bun

#avx #avx2 #avx512 #бэкенд #разработка #go #golang #phyton #ускорение #ускорение_кода

2025-11-10

SIMD – neboli Single Instruction, Multiple Data – znamená, že procesor může jednou instrukcí zpracovat více datových prvků najednou. Typicky to znamená, že místo sčítání dvou čísel přičtete dvě sady čísel paralelně. To může přinést výrazné zrychlení například při zpracování obrazu, audia nebo numerických výpočtů.

Pokud již SIMD znáte, tato tabulka je vše, co budete potřebovat. A pokud s SIMD teprve začínáte, tabulku pochopíte do konce tohoto článku

https://zdrojak.cz/clanky/stav-simd-v-rustu-v-roce-2025/

"Lincoln AI Computing Survey (LAICS) and Trends"

This paper is an update of the survey of AI accelerators and processors from past seven years, which is called the Lincoln AI Computing Survey -- LAICS (pronounced "lace").

arxiv.org/abs/2510.20931

#research #AI #ML #computerChips
#hardware #electronics #GPU #TPU
#FPGA #ASIC #AVX

Fig. 2: Zoomed regions of peak performance vs. peak power scatter plot: (a) very low power, (b) embedded, (c) autonomous, (d) data center chips and cards, (e) data center systems.Fig. 3: Range of AI accelerator computer architecture categories. Going from left to right, greater optimization of data movement between computations means data travels less distances between compu ations, and mor com utations executed in parallel. However, it also means less flexibility in operation types and programmability. CPU = Central Processing Unit; AVX = Advanced Vector eXtensions; SVE = Scalable Vector Extensions; GPU = Graphics Processing Unit; TPU = Tensor Processing Unit; CGRA = Course Grained Reconfigurable Architecture FPGA = Field Programmable Gate Array; ASIC = Application Specific Integrated Circuit
左大路さんhadsn@mstdn.nere9.help
2025-10-05

#NPU って何に使えるんだ、 #AVX みたいなダークシリコンの穴埋めなんじゃないのか、と思っております

GripNewsGripNews
2025-08-11

🌘 超越 memcpy:優化大型資料傳輸效能
➤ 剖析與實踐:如何利用現代 CPU 指令集大幅提升記憶體複製速度
squadrick.dev/journal/going-fa
作者在分析程式效能瓶頸時,發現大型二進位訊息的處理時間主要花費在記憶體複製操作上。為瞭解決這個問題,他深入探究了 glibc 中 `memcpy` 的實現,特別是 `__memmove_avx_unaligned_erms` 函式,並逐步分析其底層 AVX 指令集、向量化處理、非時序傳輸(non-temporal moves)以及預取(prefetching)等技術。接著,他嘗試了多種優化方法,包括基於 ERMS 的 `rep movsb`、對齊的 AVX 向量複製、使用非時序傳輸的 AVX 向量複製,以及結合預取的 AVX 向量複製,並透過實驗驗證了不同方法的效能差異,最終展示瞭如何透過這些技術顯著提升記憶體複製的效率。
+ 這篇文章對 memcpy 的底層實現解析得非常透徹,尤其是 AVX 和預取的

2025-05-28

SIMD на x86 — чудовище Франкенштейна?

Общее количество всех команд во всех этих расширениях — 1342 инструкции ! От комментариев воздержусь, оставлю эту привилегию читателю )) При этом SIMD на RiscV очень хвалят, как очень продуманный, минималистичный, при этом мощный и выразительный: youtube.com/watch?v=lwIBp6cc-H

habr.com/ru/articles/913586/

#simd #x86 #mmx #avx #avx2

2025-05-23

Sometimes I wish the c++ compilers were clearer about what they do, because when I mix SIMD with expression templates and it gets as optimized as the best for loop I could write, it doesn't feel like I'm doing code anymore, but dark magic

9Lukas5 🚂 🐧9Lukas5@mastodontech.de
2025-03-31

I had struggles with the #Dovecot 2.4.0 update, because of the completely changed config spec (fedi reported).

Guess what, the update from 2.4.0 to 2.4.1 broke it again.
This time, because there popped up a new CFLAG in the build script, requiring the CPU to have #AVX suppport.

Well, my servers CPU is a Dual-Core Pentium G3220 _not_ knowing this extension 😬

2025-01-19

For each version, I did the following:
```
Stop Unifi network application
Backup the database
mongodump --archive=unifi.archive --db=unifi
mongodump --archive=unifi_stat.archive --db=unifi_stat
Stop MongoDB
Upgrade the Docker image version to n
Start MongoDB container
Start Unifi network application
Tests
Connect to Mongodb and set the feature compatibility version to n
```
mongodb.com/docs/manual/releas

This went fine until I tried to upgrade to 4.4.29. The MongoDb container was not starting.
Earlier, I had a warning but for an upper version "WARNING: MongoDB 5.0+ requires a CPU with #AVX support, and your current system does not appear to have that!"

3/n

GripNewsGripNews
2024-11-10

🌘 將ASCII 字串以AVX-512快速轉換為小寫
➤ 有效利用AVX-512提高ASCII字串轉換速度
lemire.me/blog/2024/08/03/conv
AMD Zen 4和Zen 5,以及最近的Intel服務器端處理器都支持一組名為AVX-512的高級指令集。這些是強大的SIMD(單指令多數據)指令。重要的是,它們允許進行“遮罩”操作。換句話說,您可以計算一個掩碼,並僅對掩碼指示的字節執行操作。因此,您可以很容易地將64字節的記憶體區塊中的前k字節儲存為一個指令。Tony Finch最近描述瞭如何使用AVX-512快速將任意長度的ASCII字符串轉換為小寫。Finch的結果是,對於小型和大型字符串,AVX-512方法都更快。在他的工作中,Finch假設字符串的長度是預先已知的。然而,C字符串以指向字符串開頭的指針儲存,並以空字符(\0)表示結尾。因此,字符串“l
-512 字串

2024-10-27

Mixed-precision finite element kernels and assembly: Rounding error analysis and hardware acceleration

#Intel #AVX #MixedPrecision #FEM #Package

hgpu.org/?p=29481

2024-10-24
Oh you gotta be shitting me, why can't you check for #AVX support in #Windows 7?? :akko_angry2:

https://forum.palemoon.org/viewtopic.php?f=3&t=31726#p256458

#Windows7
Sikorski Arkadiuszarq@fosstodon.org
2024-10-13

"A library that abstracts over SIMD instruction sets, including ones with differing widths. SIMDeez is designed to allow you to write a function one time and produce SSE2, SSE41, and AVX2 versions of the function."

github.com/arduano/simdeez

#asm #rust #programming #opt #optimize #SSE2 #SSE41 #AVX #AVX2 #dev #C0DE #opcodes #amd64 #code #programminLanguage #code

Marcin Juszkiewicz 🙃hrw@society.oftrolls.com
2024-09-18

If you work with SIMD and wonder how it looks on the other architectures then VectorCamp has launched website which helps.

On simd.info/ you can look which intrinsics are available on Arm, Power and x86-64 (RISC-V RVV will be there too). Compare them etc.

There is a search function, tree of operations and links to the official documentation.

#simd #neon #avx #sve #vsx #sse

Les Arts Narratifslesartsnarratifs
2024-09-01

Les de la rentrée avec , les suites de , de , de et d'#, un one-shot Valiant et les 1ers volumes de et de . 😅

2024-08-01

LETS GOOOOO

#Intel listened! No more ambiguity, no more questioning, 128 bit only implementations are no longer valid for #AVX10!

A massive thanks to the Intel ISA folks!

And a major thanks to @chipsandcheese for giving me a platform to express my concerns on the spec!

For those wanting to read the updated spec, it’s here: cdrdv2.intel.com/v1/dl/getCont

And for those interested in the article asking for this, it’s available here: chipsandcheese.com/2023/10/11/

#HPC #AVX #x86 #x86_64

Job Bautistajob@tilde.zone
2024-07-26

#PaleMoon will be requiring #AVX support in CPUs for its official binaries starting from version 33.3.0, which can be expected to release on the second Tuesday of this August.

For those still stuck with #SSE2 you will either have to upgrade your processor to something more recent (AVX support has been commonly available for 10 years now) or switch to a community build that still builds support for SSE2.

forum.palemoon.org/viewtopic.p

EDIT: Oh and I forgot to mention too that this is only for 64-bit. 32-bit Windows binaries will still support SSE2 (there are not 32-bit only processors that supports AVX as far as I know anyway, and even if there are it would most likely result in worse performance due to how 32-bit x86 and AVX work)

2024-07-10

Ускоряем JS до предела C

В этой статье я попробую заглянуть за пределы возможностей языка JavaScript и оценить, как производительность может существенно различаться при написании выразительного, декларативного и лаконичного кода по сравнению с оптимизированным. На примере функции, определяющей, является ли строка палиндромом, я покажу несколько вариантов решения задачи с замерами времени на исполнение. Затем напишу модуль на C, который буду вызывать наряду с методами на JavaScript для замера скорости. Проведу низкоуровневые оптимизации. Все это стало возможно благодаря развитию ИИ. Ниже представлен код, который удовлетворит требованиям большинства интервью. К стыду своему, я забыл, как писать регулярные выражения, чтобы удалить все, кроме букв и чисел. ссылка на репозиторий .

habr.com/ru/articles/827846/

#js #c #avx #node #задачки #оптимизация #производительность

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst