#FlashAttention

Hacker Newsh4ckernews
2025-12-24
PressMind Labspressmind
2025-12-24

NVIDIA wprowadza Skip Softmax – rewolucja w szybkości LLM-ów

Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.

Czytaj dalej:
pressmind.org/nvidia-wprowadza

Ilustracja przedstawiająca technologię Skip Softmax w futurystycznym otoczeniu.
PressMind Labspressmind
2025-12-17

NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!

Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.

Czytaj dalej:
pressmind.org/nvidia-prezentuj

Futurystyczna scena przedstawiająca architekturę sieci neuronowej z neonowymi akcentami.
2025-12-16

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.

habr.com/ru/articles/976576/

#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности

AI Daily Postaidailypost
2025-11-07

New update: PyTorch and NVIDIA’s BioNeMo now support attn_input_format, unlocking faster flash‑attention scaling for models like ESM3. The change adds cu_seq_lens_q handling and integrates with Hugging Face and Transformer Engine, boosting open‑source LLM performance. Dive into the details to see how this impacts your next project.

🔗 aidailypost.com/news/pytorch-n

2025-09-26

AI 추론 비용 90% 절약하는 3단계 최적화 전략

LLM 운영 비용을 10-15배 줄이는 체계적인 3단계 최적화 전략을 소개합니다. GPU 활용률 극대화부터 메모리 병목 해결, 세부 비용 최적화까지 실제 현업에서 적용 가능한 구체적인 기법들을 다룹니다.

aisparkup.com/posts/5111

Hacker Newsh4ckernews
2025-08-23
N-gated Hacker Newsngate
2025-04-29

🤖 Oh joy, another thrilling journey through the riveting world of Flash Attention in SGLang! 🌟 Because clearly, the universe was desperately yearning for a detailed breakdown of yet another backend implementation. 🤯 Guess 0.4.6 just wouldn’t be the same without it! 🥳
hebiao064.github.io/fa3-attn-b

2025-02-16

Вакцина… от рака?

Вакцина… от рака? Максимально недлинный рассказ про то, как иммунные клетки атакуют злокачественную опухоль с помощью антител и почему не стоит быстро ждать иммунного ответа; а также про важнейшие виды иммунопрепаратов, технологии создания терапевтических онковакцин и принципиальный подход к использованию нейросетей в этом деле.

habr.com/ru/articles/883062/

#онковакцина #иммунитет #FlashAttention #дендритные_клетки #неоантигены #CART_технология

Tero Keski-Valkamatero@rukii.net
2023-05-06

Releasing 3B and 7B #RedPajama-#INCITE family of models including base, instruction-tuned & chat models — #TOGETHER

"The biggest takeaway is the demonstration that performant #LLMs can be built quickly by the open-source community. This work builds on top of our 1.2 trillion token RedPajama dataset, EleutherAI’s #Pythia training code, #FlashAttention from #Stanford and #Together, the #HELM benchmarks from Stanford #CRFM and generous support from #MILA, #EleutherAI & #LAION for compute time on the #Summit #supercomputer within the INCITE program award 'Scalable Foundation Models for Transferable Generalist AI'. We believe these kind of open collaborations, at larger scales, will be behind the best #AI systems of the future. "

together.xyz/blog/redpajama-mo

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst