#FP8

2026-01-01

Tăng tốc GPU đời cũ với giải pháp Software FP8! 🚀

Một nhà phát triển vừa ra mắt giải pháp giả lập định dạng FP8 bằng phần mềm (sử dụng Triton kernels) cho các dòng GPU không hỗ trợ phần cứng như RTX 30/20 series.

🔥 Kết quả:
- Tốc độ tăng gấp 3 lần đối với các tác vụ giới hạn bởi băng thông bộ nhớ (GEMV, FlashAttention).
- Hoạt động trên mọi GPU đời cũ.
- Tối ưu hóa việc đóng gói dữ liệu chính xác thấp vào FP32.

#AI #GPU #FP8 #MachineLearning #DeepLearning #CongNghe #PhanMem #Triton

https:/

2025-11-26

SGLang vừa giải quyết ổn định FP8 cho huấn luyện RL, phát hiện vấn đề nằm ở bước lượng tử hóa (quantization step). Đây là bước tiến lớn cho RLHF và tinh chỉnh RL cục bộ, giúp đơn giản hóa việc sử dụng độ chính xác hỗn hợp.
#SGLang #FP8 #RLTraining #Quantization #AI #MachineLearning #HuấnLuyệnRL #TríTuệNhânTạo #HọcMáy

reddit.com/r/LocalLLaMA/commen

2025-11-25

Tin tuyệt vời cho dân chơi LLM địa phương! Giờ đây bạn có thể thực hiện FP8 reinforcement learning ngay trên máy tính cá nhân với VRAM chỉ 5GB. Tốc độ nhanh hơn, ít tốn VRAM hơn so với BF16/FP16. Thử ngay với RTX 40/50 series!
#LocalLLM #AI #MachineLearning #hocmay #trituenhantao #fp8 #reinforcementlearning

reddit.com/r/LocalLLaMA/commen

2025-11-09

FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error

#FP8 #Precision

hgpu.org/?p=30341

N-gated Hacker Newsngate
2025-10-04

🐢 Breaking news: A team of 🧙‍♂️ has magically discovered that can handle something called "Matrix Programming" with a little pixie dust called , , and . Who knew? 🤯 Get ready to revolutionize the universe... or just your local coffee shop's spreadsheet calculations. ☕📈
salykova.github.io/matrix-core

Hacker Newsh4ckernews
2025-10-03
2025-09-22

Mô hình Qwen3-Next-80B-A3B đã chính thức được lượng tử hóa FP8, giúp giảm dung lượng và tăng tốc độ xử lý AI. Đây là bước tiến quan trọng trong việc tối ưu hóa mô hình ngôn ngữ lớn! 🤖✨

#AI #TríTuệNhânTạo #Qwen #LượngTửHóa #FP8 #MachineLearning #HọcMáy

reddit.com/r/LocalLLaMA/commen

2025-08-07

Малые числа, большие возможности: Роль плавающей запятой в ИИ

Числа с плавающей запятой лежат в основе подавляющего большинства компьютерных вычислений, особенно в сферах искусственного интеллекта (ИИ) и машинного обучения. Они позволяют моделям эффективно обрабатывать данные, обеспечивая баланс между точностью и скоростью вычислений. Развитие вычислительных технологий требует новых форматов, которые оптимизируют использование памяти и ускоряют вычислительные процессы без значительных потерь точности. Одним из перспективных форматов стал FP8 — 8-битный формат чисел с плавающей запятой, который может улучшить производительность вычислений и сократить энергопотребление.

habr.com/ru/companies/itglobal

#fp8 #ai #ieee #квантование #машинное_обучение #обработка_данных #nvidia #amd #intel #ocp

Hacker Newsh4ckernews
2025-07-11
Benjamin Carr, Ph.D. 👨🏻‍💻🧬BenjaminHCCarr@hachyderm.io
2025-05-21

#JackDongarra Makes a Stand for Traditional #HPC: "US still doesn’t have a clear, long-term plan for what comes next.... U.S. risks falling behind."

Challenges to high-performance computing threaten #US #innovation

The #AI boom has led chip makers to focus on #FP16 and #FP8, not the #FP64 used by scientific research. If chip companies stop making the parts that #scientists need, then it could become harder to do important research.
theconversation.com/challenges

2025-05-05

Meet DeepSeek-V3 — the 671 billion parameter beast that’s making OpenAI and Anthropic nervous 👀

👀

🧠 It’s:
✔ Faster
✔ Cheaper ($5.6M training vs $60M+)
✔ More accurate on key tasks like coding, math, and comprehension
✔ Open-source + MIT licensed
✔ Deployable across NVIDIA, AMD & Huawei

📊 Performance Highlights:
🔹 MMLU: 88.5%
🔹 HumanEval: 82.6%
🔹 DROP: 91.6
🔹 MATH-500: 90.2%
🔹 Chinese C-Eval: 86.5%

But wait... ⚠️

🚨 Your data goes to Chinese servers.
🚨 It dodges politically sensitive questions.
🚨 It’s already being banned by gov agencies for “privacy risks.”

So is it the best LLM of 2025 or a privacy nightmare?

📥 Read the full analysis report here → deepseekagi.org/deepseek-v3-ar

💬 Drop your thoughts in the comments 👇
#DeepSeekV3 #AIRevolution #GPT4 #Claude3 #OpenSourceAI #AIComparison #MoE #FP8 #FutureTech #FacebookAI #LLMBattle

2025-02-26
Triple bird 🐦‍⬛
#birds #vsco #googlepixel #fp8 #fujipro800z
vsco Fuji pro 800 Z
N-gated Hacker Newsngate
2025-02-26

🧐 Welcome to the thrilling world of "," where they unleash their groundbreaking , as if these buzzwords mean anything to normal humans. 🤖✨ Now you too can revel in the of "-grained ," because who doesn't dream of spending their weekends scaling kernels? 🎉 's menu is undoubtedly the real star here, stealing the show with its riveting toggle action. 🚀
github.com/deepseek-ai/DeepGEMM

Hacker Newsh4ckernews
2025-02-26

DeepSeek Open Sources DeepGEMM: Clean and efficient FP8 GEMM kernels — github.com/deepseek-ai/DeepGEMM

2024-09-30

FP32, FP16, BF16 и FP8 — разбираемся в основных типах чисел с плавающей запятой

Привет, Хабр! Сегодня давайте поговорим о том, как современные вычисления на GPU стали более гибкими и эффективными благодаря различным форматам чисел с плавающей запятой ( FP64 , FP32 , FP16 , BFLOAT16 и FP8 ). Эти форматы не просто числа — за каждым из них стоит конкретная область применения. В разных ситуациях мы сталкиваемся с задачами, где важны либо скорость, либо точность, и правильно выбранный тип floating point помогает оптимизировать ресурсы. Давайте разберём всё это на примерах и поймём, в каких задачах каждый из этих форматов будет наиболее полезен.

habr.com/ru/companies/serverfl

#FP16 #fp32 #FP64 #BF16 #floating_point #плавающая_запятая #fp8 #числа_с_плавающей_запятой #формат_с_плавающей_запятой

2024-09-12

Introducing Phind-405B and faster, high quality #AI answers for everyone

🚀 Phind-405B: New flagship #llm, based on Meta Llama 3.1 405B, designed for programming & technical tasks. #Phind405B

⚡ 128K tokens, 32K context window at launch, 92% on HumanEval, great for web app design. #Programming #AIModel

💡 Trained on 256 H100 GPUs with FP8 mixed precision, 40% memory reduction. #DeepSpeed #FP8

⚡ Phind Instant Model: Super fast, 350 tokens/sec, based on Meta Llama 3.1 8B. #PhindInstant

🚀 Runs on NVIDIA TensorRT-LLM with flash decoding, fused CUDA kernels. #NVIDIA #GPUs

🔍 Faster Search: Prefetches results, saves up to 800ms latency, better embeddings. #FastSearch

👨‍💻 Goal: Help developers experiment faster, new features coming soon! #DevTools #Innovation

phind.com/blog/introducing-phi

2024-08-28

Intel Gaudi — гонка ИИ-ускорителей

Привет Хабр! С вами снова ServerFlow и мы хотим поговорить о насущном – о ИИ с нейросетями, а точнее о железе на котором нейросети обучают и на котором впоследствии они работают. В последние годы эта индустрия напоминает арену бойцовского клуба, где технологические гиганты с ожесточенной конкуренцией стремятся предложить наиболее производительные и эффективные решения для машинного обучения. И хотя не особо похоже, чтобы у кого-то на этой арене получилось сместить лидера рынка в лице NVIDIA, однако, попытки продолжают предприниматься. Так продолжает и Intel, представив свету свою серию ИИ-ускорителей под брендом Gaudi, а не так давно и обновленную модель Gaudi 3. Ранее Intel предпринимала попытки в собственные разработки ИИ ускорителей, но в этот раз за работу взялась компания Habana Labs, приобретённая Intel в 2019 году за внушительную сумму в 2 миллиарда долларов.

habr.com/ru/companies/serverfl

#npu #Intel #Gaudi #nvidia #h100 #ии #нейросети #gpu #b200 #FP8

2022-11-06

Glad to be on here! My #introduction:

I'm an AI researcher in the UK, working at Graphcore - a semiconductor company who develop the #IPU (a #GPU alternative) 💻 I joined last year, having previously been at Oxford for my MSc.

My interests are in #numerics (especially #fp8 8️⃣), #LLMs, mixture-of-expert models, and anything to do with #solitaire ♣️ ♦️

Thanks to @thegradient for making this happen 😃

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst