#TRITON

2025-12-29

Tilus: A Tile-Level GPGPU Programming Language for Low-Precision Computation

#CUDA #PTX #Triton #ProgrammingLanguages #Package

hgpu.org/?p=30481

Hacker Newsh4ckernews
2025-12-24
2025-12-16

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.

habr.com/ru/articles/976576/

#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности

2025-12-14

Accelerating Molecular Simulations with Triton: Fused GPU Kernels for TensorNet Neural Potentials

#Triton #CUDA #MolecularDynamics #MD #MolecularSimulations #PyTorch #Chemistry #Biology

hgpu.org/?p=30453

2025-12-14

TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization

#Triton #CUDA #PyTorch #Package

hgpu.org/?p=30450

2025-12-07

tritonBLAS: Triton-based Analytical Approach for GEMM Kernel Parameter Selection

#Triton #BLAS #GEMM #AMD #ROCm #HPC #Performance #Package

hgpu.org/?p=30441

2025-12-07

Decoupled Triton: A Block-Level Decoupled Language for Writing and Exploring Efficient Machine-Learning Kernels

#Triton #Compilers #MachineLearning #ML #Thesis

hgpu.org/?p=30439

2025-11-30

QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation

#Triton #CUDA #AI #CodeGeneration #LLM

hgpu.org/?p=30413

2025-11-30

KernelBand: Boosting LLM-based Kernel Optimization with a Hierarchical and Hardware-aware Multi-armed Bandit

#Triton #CUDA #LLM #CodeGeneration

hgpu.org/?p=30412

2025-11-23

Iris: First-Class Multi-GPU Programming Experience in Triton

#Triton #HIP #CUDA #Package

hgpu.org/?p=30375

2025-11-23

The Anatomy of a Triton Attention Kernel

#Triton #HIP #CUDA #LLM #Performance

hgpu.org/?p=30371

FreddyB Aviation Photographycvvhrn@sfba.social
2025-11-18

Wow a first for me. A USN MQ-4 squawking 7600 at FL502 14 hours into first flight off Okinawa. 7600 mean a radio issue #RQ4 #drone #HALE #Triton #USN #MQ4C

2025-11-08

NVIDIA ASR được phục vụ hiệu quả nhất tại quy mô lớn bằng khung nào? Vllm, triton...? Cấu hình nào tốt cho batching? #NVIDIA #ASR #AI #TríTuệNhânTạo #PhátNgàyÀo #TiếngAnh #ViệtNam #CôngNghệ #Triton #VLLM

reddit.com/r/LocalLLaMA/commen

Hubu.dehubude
2025-10-10

⚡ Triton sieht Umbruch der deutschen Industrie als Kaufchance: Nach dem Verkauf mehrerer deutscher Beteiligungen und dem Erwerb einer Bosch-Sparte will das Private-Equity-Haus Triton wieder verstär... hubu.de/?p=298588 |

N-gated Hacker Newsngate
2025-10-05

Introducing the most riveting tale of all time: the between a and its , sprinkled with just enough to make you nod off faster than a PyTorch Profiler. We've got , pheromones, and more tangents than a high school geometry class 💤. Pack your bags, folks, because we're going on an through a sea of terrifying colors and kernels that nobody asked for! 🚀🌈
ut21.github.io/blog/triton.html

GripNewsGripNews
2025-10-05

🌘 GPU 中的 G 代表圖形:Triton 核心、剖析、平行處理與更多
➤ 運用 Triton 語言,解鎖 GPU 圖形處理單元(GPU)的真實潛力
ut21.github.io/blog/triton.html
本文深入探討了使用 NVIDIA Triton 語言開發高效 GPU 核心的過程,特別是在模擬黏菌(Physarum)生長模型時。作者分享了從背景知識、模型理解、PyTorch 實作,到利用 Triton 進行核心優化的實踐經驗。透過 Triton,作者成功將原本在 PyTorch 中效率不彰的運算轉換為 GPU 上的高效執行,並利用 PyTorch Profiler 進行效能分析,展示了 Triton 在 GPU 程式開發中的潛力與優勢,尤其是在需要大量平行運算的場景下。
+ 這篇文章對於 Triton 的介紹很棒,讓我對如何在 GPU 上寫出高效能的程式有了新的認識。
+ 非常喜歡作者將黏菌模擬與 GPU 優化結合的方式,概念很有趣,技術細節也很紮實。
計算

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst