🌘 Fast-dLLM:透過啟用 KV Cache 與平行解碼加速免訓練的擴散式大型語言模型
➤ 突破擴散式大型語言模型效能瓶頸:KV Cache 與平行解碼的雙重奏
✤ https://arxiv.org/abs/2505.22618
研究團隊提出 Fast-dLLM,一種免於額外訓練即可顯著加速擴散式大型語言模型(Diffusion LLMs)推理速度的方法。有鑑於現有開源 Diffusion LLMs 在推理速度上落後於傳統自迴歸模型,且在同時解碼多個詞彙時常出現品質下降的問題,該研究開發了一種新穎的區塊式近似 KV Cache 機制,能有效實現快取重用並將效能損失降至最低。此外,研究人員亦指出平行解碼品質下降的主因是條件獨立假設下破壞了詞彙依賴關係,因此提出一種信賴度感知(confidence-aware)的平行解碼策略,僅解碼高信賴度的詞彙,從而避免依賴關係的違反並維持生成品質。在 LLaDA 和 Dream 模型上的實驗證明,Fast-dLLM 可大幅提升高達 27.6 倍的吞吐量,同時僅有極小的準確度損失,有效縮小了
#人工智慧 #大型語言模型 #擴散模型 #推論加速