#VLIW

2026-01-21

Hello XDNA!

We're documenting how to program AMD's NPUs in Ryzen AI chips.

Our website covers the ISA, register files, operation latencies, and hand-optimized assembly kernels for tensor contractions.

Measured single-compute-tile throughput:
• XDNA1 (Ryzen 7 8700G): 398 BF16 GFLOPS (86% of peak)
• XDNA2 (Ryzen AI Max PRO 390): 1760 BFP16 GFLOPS (95% of peak)

tnzr.org/xdna

#AMD #RyzenAI #NPU #XDNA #XDNA2 #AssemblyLanguage #VLIW

2026-01-09

Может ли устареть инкремент: обзор выполнения оператора на современных вычислительных платформах

Привет, Хабр! В ходе своей работы я часто изучаю сам и обучаю других писать и оптимизировать код. Однако когда я рекомендую в своих материалах «делайте так», я не всегда уверен, что тиражирую актуальную и достоверную информацию. Для подтверждения своих слов я изучаю и цитирую авторитетные источники, рекомендуемые в подборках книг, материалах конференций и курсах по C и C++. Тем не менее этого оказывается недостаточно. Скачав и углубившись в руководства по архитектуре, системам команд и оптимизации с официальных сайтов производителей вычислительных устройств, я обнаруживаю, что информация расходится. Возникает проблема: я перестаю чувствовать уверенность в своём опыте и в материале, который хотел тиражировать другим. В этой статье мы разберём один из таких примеров. Возьмём небольшой пример кода, сформируем рекомендации по его эффективному написанию и оценим, насколько сложно (и возможно ли вообще) обосновать их применение. Для этого мы проанализируем рекомендации учебников по программированию, оценим их качество и актуальность. Если они окажутся недостаточными, то обратимся к руководствам производителей «железа». Рассмотрим «простой» пример цикла, выполняющего сложение двух массивов. Слово «простой» взято в кавычки не случайно. Даже тезисное обсуждение эффективных методов сложения массивов на GPU (NVIDIA или AMD) с коллегами занимает несколько часов. Полноценно раскрыть эту тему в одной статье невозможно. Поэтому сосредоточимся лишь на части примера – операции инкремента «i++» в управляющей части цикла. Для анализа обратимся к книгам, рекомендованным на профильных it-ресурсах: Хабр, Яндекс.Практикум, Proglib и др. Чтобы уточнить информацию, рассмотрим официальные руководства следующих производителей вычислительных устройств: CISC (Intel, AMD), VLIW (МЦСТ, Texas Instruments), RISC (Apple, Qualcomm, MediaTek и др.) и GPU (NVIDIA, AMD).

habr.com/ru/articles/983566/

#isa #cpu #gpu #risc #cisc #vliw #программирование

2025-12-20

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И, конечно же, я согласился. Так как мне интересно. Не каждый день неизвестные люди в Интернете предлагают доступ к удалённым хостам. Разве может что-то пойти не так?

habr.com/ru/articles/978730/?u

#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода

2025-12-20

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И конечно же я согласился. Так как мне интересно. Не каждый день неизвестные люди предлагают доступ к удалённым хостам. Разве может что-то пойти не так?

habr.com/ru/articles/978730/

#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода

2アウト速射砲hadsn@mstdn.nere9.help
2025-09-29

バイナリコードを販売してユーザに実行させようという観点からすれば #VLIW なんて夢のまた夢で、 #スーパースカラ#RISC で競合しない命令をガンガン実行させる方がいいに決まってるでしょ。それとも #Itanium のころの #Intel はすべてが #Java になるとでも思っていらっしゃった?

Marcin Cieślaksaper
2025-08-30

@rl_dane @mdc I wonder how opcodes compare to what F18 chips from have.

Only 32 opcodes, 8 of them special (can be used in th last 3 bits of a kind of 18-bit word) versus 256 opcodes of

offers much more high level i/o, F18A has 4 interchip ports, GPIO, A/D interface and SERDES, which can be used to build things like Ethernet for example.
varvara-fpga does not implement most varvara I/O features at all.

greenarraychips.com/home/docum

greenarraychips.com/home/docum

2025-08-29

Эльбрус-2 в сравнении с основными суперкомпьютерами 1960–1980-х годов

Многопроцессорный вычислительный комплекс (МВК) «Эльбрус-2», созданный в СССР в 1984–1985 годах, является выдающимся достижением советской вычислительной техники и заслуживает высокой оценки по ряду ключевых параметров — числу процессоров, архитектуре и производительности, существенно опережающим многие зарубежные аналоги своего времени.

habr.com/ru/articles/942060/

#суперкомпьютер #эльбрус #мэинфреймы #vliw

2025-07-19

@DosFox it’s Solo, a cancelled Transmeta SoC, which paired a Crusoe with peripherals including a graphics adapter. Alas, before we got it back Microsoft raised the Windows graphics requirements rendering it nonviable. A pair of energetic souls did bring it up to a Windows desktop, but that was the end of Solo. So tragic. (A check from Donald Knuth is photo bombing the corner)

#Transmeta #CMS #VLIW #ASIC

Dantali0n :arch: :i3:dantalion@fosstodon.org
2025-07-03

First time I supervised a master thesis, man I am getting old.

It was extremely fun though to see someone explore #DSP applications and mapping them to a #NPU with great success.

While perhaps no surprise as both use streaming processing, dataflow architectures and #VLIW microarchitectures. It is great to have the NPUs available in modern processors effectively allowing for accelerated #SDR or #DSP on mobile devices.

You can find the work here: repository.tudelft.nl/record/u

2025-06-04

TIL that the very inventor of #VLIW, Joseph A. Fisher, has the definitive text on it: Embedded Computing: A VLIW Approach to #Architecture, #Compilers and Tools.

It seem to describe a nop compression scheme that can be seem as doing the same thing the modern GPU is doing.

2025-02-25

У VLIW длиннее x86: Itanium в шаге от величества, Эльбрус — подержите моё пиво, тайны PS2

Разбираем архитектуру VLIW (Very Long Instruction Word). Поговорим о предтечах, погрузимся в дух 1980-1990-х, узнаем, как Itanium стал Itanic’ом, как архитектура жила, живёт и будет жить. Ах да, будет про Эльбрус и даже PlayStation 2. Осторожно: текст большой, интересный и может заставить вас пересмотреть взгляды на процессорные архитектуры. Дропдаун

habr.com/ru/companies/serverma

#Itanium #vliw #архитектура_процессоров #cpu_architecture #intel #эльбрус #архитектура #ps2

2025-01-28

Thinking about selling my Sun TAAC-1 VLIW board. Introduced in 1987, it was a coprocessor for VME Sun-3 systems, and the world's first "Board Level General-Purpose Graphics Processing Unit", according to some.

Approximately 400 were made.

Photogenic little beastie, among other things.

If you're interested, please email: dave@cca.org

#Sun #SunMicrosystems #VLIW #RetroComputing

A large board filled with ram chaps, 4 DAC's and 8 BNC connectors.A large board with five larger ASICs and a ton of assorted smaller chips.A closeup of a dense field of vertical ram chips.A closeup of a few ASICs on a Sun graphics board from 1987.
Kevin Karhan :verified:kkarhan@infosec.space
2025-01-21
2025-01-02

[Перевод] Суперкомпьютер Эльбрус-3

История Эльбрус-3 В период с 1984 по 1985 год, когда завершалась разработка первых процессоров «Эльбрус-2», команда Эльбруса под руководством Бориса Арташесовича Бабаяна приступила к предварительным работам над машинами следующего поколения. В 1985 году ИТМиВТ получил государственный заказ на проектирование и создание машины с теоретической максимальной производительностью в 10 ГФлопс. Основные требования к «Эльбрусу-3» оставались такими же, как и к «Эльбрусу-1» и «Эльбрусу-2». Особое внимание уделялось высокой производительности как в научных, так и в универсальных вычислениях, надёжности и совместимости программного обеспечения с ранними моделями «Эльбруса». В конструкции «Эльбруса-1» и «Эльбруса-2» присутствовал ряд недостатков, которые делали их неподходящими в качестве основной машины с требуемой производительностью, необходимой в государственном применении. Помимо архитектурных ограничений в производительности, требовалось получать больше информации о выполнении программного кода и зависимостях команд и данных в момент исполнения, которая не была доступна динамическому планировщику в момент исполнения. Планировщик мог учитывать в лучшем случае до 32 инструкции наперёд (общее количество буферных станций, содержащих инструкции и операнды или адреса операндов в каждом функциональном блоке). Часто этого было недостаточно, особенно в случае передачи условного управления (ветвления кода). Более того, динамическое планирование существенно затрудняло отладку. Невозможно было статически определить точный порядок исполнения инструкций. Вариативность в планировании одного исполнения к другому также влияли на показатели производительности. Бабаян отмечает, что ему было крайне трудно демонстрировать работу системы приёмной комиссии по причине того, что не удавалось добиться повторяемости результатов измерения производительности. По этим причинам было решено использовать конвейерные функциональные блоки и сосредоточиться на статическом планировании исполнения команд.

habr.com/ru/articles/871338/

#эльбрус #vliw #суперкомпьютер #мэинфреймы

2024-11-28

First, a few credentials: I know my way around one or two instruction sets already, as professed here mastodon.gougere.fr/@PierreLeb

So, first thing I notice: it’s #VLIW. Much odder is the fact instruction encoding is endian-dependent (on that of the host). So unlike, say, ARM, where the same object code can run on either big- or little-endian targets if you carefully craft it, because data inside the instruction themselves is always little-endian, here this is not possible: the encodings differ!

🅴🆁🆄🅰 🇷🇺erua@hub.hubzilla.de
2024-11-12
Странное чувство при осознании того, что видео-карта приобретена не только ради нормальной картинки в играх. Что эта вычислительная мощность активно используется и во время других игр, но где нужны обдуманные и взвешенные ходы, а не обсчёт задачек ради 3d-графики.

Например, игра в #Го — движки способные заменить людей выполняют неслабые такие нейросети в комбинации с #MCTS (Monte-Carlo Tree Search).

Сперва это был #LeelaZero, являющийся повторением #AlphaGo Zero согласно его оригинальному описанию.

Теперь это #KataGo, в целом аналогичная, но с рядом доработок заточенных под игру #Го и активно развиваемая/тренируемая, в то время как, работы над #LeelaZero прекратились в районе 2021 года.

Очень может быть, что в скором времени, компьютерам нужна будет видеокарта как универсальный ускоритель общего назначения. Используемый и в локальных системах представления и анализа данных — самое элементарное создания динамических отчётов (dashboard'ов) заточенных под конкретного пользователя. Например, это могут быть различные «ассистенты», выполняющиеся на компьютере пользователя, к которым человек обращается с поручениями что-то узнать или выяснить.

Ускорять специфичным «железом» (#VLIW, #TensorFlow ) надо будет не только парсинг/разбор запросов от человека на естественно языке (голосом, текстом), но и всю ту работу, которая должна быть проведена при создании запрошенного.

#AI #ИИ #games #gaming #го #igo #baduk #бадук #weiqi #вэйци #OpenCL #hardware #lang_ru
2024-08-05

Микропроцессоры и Инопланетяне

3 июля в ТАСС состоялась пресс-конференция , посвященная открытию исходных кодов некоторой части системного ПО для микропроцессоров Эльбрус. Само по себе событие сложно не воспринимать положительно, вне зависимости от цели и полезности того, что было выложено на публику. Но вот выступления некоторых участников пресс-конференции, носили, не побоюсь этого слова, инопланетный характер. И если представитель Минпромторга и исполнительный директор ассоциации разработчиков программных продуктов «Отечественный софт» не выходили за рамки присущего такого рода мероприятиям дежурных заявлений в духе «за всё хорошее, против всего плохого, углубить и расширить», то люди, очень похожие на представителя МЦСТ Константина Трушкина и главу ассоциации АРПЭ Ивана Покровского, безусловно, заинтересовали бы агентов K и J. Но т.к. в эпоху санкций и ограничений люди в чёрном не смогут прилететь в Москву, придётся разоблачать пришельцев самостоятельно.

habr.com/ru/articles/833858/

#процессоры #riscv #arm #vliw

🅴🆁🆄🅰 🇷🇺erua@hub.hubzilla.de
2024-07-03
Сегодня в 15:00 по МСК народ из #МЦСТ таки вскроет исходники всего того, что наработали для создания ОС «Эльбрус» — правки в ядро и мир линухов для работы этого всего на процессорах #Эльбрус (#VLIW -платформа).

Раньше были юридические закавыки, о том что их удалось преодолеть и чё дальше расскажут в ходе пресс-конференции такие персоны как:
• директор департамента цифровых технологий Минпромторга России Владимир Дождев
• заместитель гендира по маркетингу АО «МЦСТ» Константин Трушкин
• исполнительный директор ассоциации «Отечественный софт» Ренат Лашин
• глава Ассоциации российских разработчиков и производителей электроники Иван Покровский.

Вряд ли акция затронет их компилятор (lcc), но вообще это шаг которого давно ожидали и про который уже шесть лет активно говорят. Поскольку ОС «Эльбрус» с компами на процессорах Эльбрус поставляется с кучей юридических ограничений и распространять её саму нельзя, равно как и все те правки, что МЦСТ понаделал в открытом софте. Получается казус по части open source софта на фоне того, как страна активно внедряет везде и всюду этот самый open source.

Компилятор для VLIW-платформ не тоже самое что для CISC, RISC (MIPS, ARM).
Те же #Intel 'овские процессоры микрокод и микрокоманды своей архитектуры генерируют на лету в процессе выполнении обычного x86-кода. Правила, варианты генерации и способы оптимизации держат в секрете, за счёт того, что прошивки #firmware процессора в обязательном порядке зашифрованы и подписаны.
В случае же с VLIW-процессорами, микрокод — микрокоманды с микроинструкциями — создаются компилятором и упаковываются в специальные слова для распараллеливания вычислений (равномерной загрузки исполнительных модулей процессора), а сама аппаратура процессора не имеет всякого рода загружаемых «прошивок».

Это отличительная особенность делает VLIW-процессоры более безопасными для ряда систем, т.к. прошивка процессоров напичкана не только логикой декомпозиции сложных инструкци на более простые в микрокод. И не только шетдуллером раскидывающим эти микроинструкции по вычислительным блокам, но и всем тем, что организует виртуализацию VT-x/VT-d и права разграничения между процессами (виртуальную память, user mode & kernel mode режимы исполнения). Такими монстрами являются «прошивки» у процессоров Intel & AMD да и SoC на ARM'ах от того же Qualcomm и иже с ними. Неизвестно никому какие значения надо в какие регистры подгрузить, чтобы выключить «аппаратные» гарантии по разграничению прав доступа из user space кода к ядру ОС (kernel space) или же вообще в гипервизор.

Уровни доступа уже не ограничены ring 0..3, а давно имеются ring -1 и ring -2 и даже -3 — для примера тот же #SMM, который «System Management Mode» в современных IBM PC или же AMT/ME.

#lang_ru @Russia
Denis Drakhnianumas13@suya.place
2024-04-26
Family guy Noah meme:

The first picture with a bunch of animals and text:
1. VLIW
2. Speculation
3. Predication
4. Prepared Control Flow
5. Array Access Unit
6. Combined Operations
7. Protected Mode

The second picture with an animal is created from parts of the animals from the first picture and text "Elbrus-2000" [1].

Noah> What the hell is this?

[1]: Elbrus-2000 is a VLIW ISA.

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst