I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
I rebuilt FlashAttention in Triton to understand the performance archaeology
https://aminediro.com/posts/flash_attn/
#HackerNews #FlashAttention #Triton #Performance #Archaeology #Rebuild #TechInnovation #MachineLearning
NVIDIA wprowadza Skip Softmax – rewolucja w szybkości LLM-ów
Czy naprawdę trzeba liczyć uwagę do każdego słowa w 128 tysiącach tokenów? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to szybciej, nie rozwalając modelu.
Czytaj dalej:
https://pressmind.org/nvidia-wprowadza-skip-softmax-rewolucja-w-szybkosci-llm-ow/
#PressMindLabs #blackwell #flashattention #hopper #rag #skipsoftmax
NVIDIA prezentuje Skip Softmax – rewolucja w obliczeniach LLM!
Czy naprawdę musimy liczyć uwagę każdego tokena do każdego innego tokena, tylko dlatego że tak mówi matematyka? NVIDIA twierdzi, że nie – i pokazuje, jak zrobić to sprytniej.
Czytaj dalej:
https://pressmind.org/nvidia-prezentuje-skip-softmax-rewolucja-w-obliczeniach-llm/
#PressMindLabs #flashattention #llm #nvidia #rag #skipsoftmax
Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только
На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений. Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.
https://habr.com/ru/articles/976576/
#машинное_обучение #transformers #трансформеры #внимание #attention #flashattention #triton #большие_языковые_модели #llm #оптимизация_производительности
New update: PyTorch and NVIDIA’s BioNeMo now support attn_input_format, unlocking faster flash‑attention scaling for models like ESM3. The change adds cu_seq_lens_q handling and integrates with Hugging Face and Transformer Engine, boosting open‑source LLM performance. Dive into the details to see how this impacts your next project. #PyTorch #NVIDIA #flashattention #BioNeMo
🔗 https://aidailypost.com/news/pytorch-nvidia-bionemo-add-attninputformat-flashattention-scaling
4x faster LLM inference (Flash Attention guy's company)
https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
#HackerNews #4xFasterInference #FlashAttention #LLMTechnology #AIInnovation #AdaptiveLearning
AI 추론 비용 90% 절약하는 3단계 최적화 전략
LLM 운영 비용을 10-15배 줄이는 체계적인 3단계 최적화 전략을 소개합니다. GPU 활용률 극대화부터 메모리 병목 해결, 세부 비용 최적화까지 실제 현업에서 적용 가능한 구체적인 기법들을 다룹니다.Writing Speed-of-Light Flash Attention for 5090 in CUDA C++
https://gau-nernst.github.io/fa-5090/
#HackerNews #WritingSpeedOfLight #FlashAttention #CUDA #C++ #5090 #HackerNews #Technology
🤖 Oh joy, another thrilling journey through the riveting world of Flash Attention in SGLang! 🌟 Because clearly, the universe was desperately yearning for a detailed breakdown of yet another backend implementation. 🤯 Guess #SGLang 0.4.6 just wouldn’t be the same without it! 🥳
https://hebiao064.github.io/fa3-attn-backend-basic #FlashAttention #BackendImplementation #TechNews #Innovation #Excitement #HackerNews #ngated
Вакцина… от рака?
Вакцина… от рака? Максимально недлинный рассказ про то, как иммунные клетки атакуют злокачественную опухоль с помощью антител и почему не стоит быстро ждать иммунного ответа; а также про важнейшие виды иммунопрепаратов, технологии создания терапевтических онковакцин и принципиальный подход к использованию нейросетей в этом деле.
https://habr.com/ru/articles/883062/
#онковакцина #иммунитет #FlashAttention #дендритные_клетки #неоантигены #CART_технология
Flash Attentionを使ってLLMの推論を高速・軽量化できるか?
https://qiita.com/jovyan/items/11deb9d4601e4705a60d?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items
#qiita #Python #PyTorch #LLM #FlashAttention
Würstchen - Schnelle Diffusion jetzt für die Bildgenerierung
#KI #AI #Würstchen #Diffusionsmodell #Bildgenerierung #VQGAN #Autoencoder #GPU #Effizienz #PyTorch #FlashAttention #TorchCompile #kuenstlicheintelligenz #künstlicheintelligenz
Releasing 3B and 7B #RedPajama-#INCITE family of models including base, instruction-tuned & chat models — #TOGETHER
"The biggest takeaway is the demonstration that performant #LLMs can be built quickly by the open-source community. This work builds on top of our 1.2 trillion token RedPajama dataset, EleutherAI’s #Pythia training code, #FlashAttention from #Stanford and #Together, the #HELM benchmarks from Stanford #CRFM and generous support from #MILA, #EleutherAI & #LAION for compute time on the #Summit #supercomputer within the INCITE program award 'Scalable Foundation Models for Transferable Generalist AI'. We believe these kind of open collaborations, at larger scales, will be behind the best #AI systems of the future. "