#%E6%93%B4%E6%95%A3%E6%A8%A1%E5%9E%8B

GripNewsGripNews
2025-10-24

🌘 Fast-dLLM:透過啟用 KV Cache 與平行解碼加速免訓練的擴散式大型語言模型
➤ 突破擴散式大型語言模型效能瓶頸:KV Cache 與平行解碼的雙重奏
arxiv.org/abs/2505.22618
研究團隊提出 Fast-dLLM,一種免於額外訓練即可顯著加速擴散式大型語言模型(Diffusion LLMs)推理速度的方法。有鑑於現有開源 Diffusion LLMs 在推理速度上落後於傳統自迴歸模型,且在同時解碼多個詞彙時常出現品質下降的問題,該研究開發了一種新穎的區塊式近似 KV Cache 機制,能有效實現快取重用並將效能損失降至最低。此外,研究人員亦指出平行解碼品質下降的主因是條件獨立假設下破壞了詞彙依賴關係,因此提出一種信賴度感知(confidence-aware)的平行解碼策略,僅解碼高信賴度的詞彙,從而避免依賴關係的違反並維持生成品質。在 LLaDA 和 Dream 模型上的實驗證明,Fast-dLLM 可大幅提升高達 27.6 倍的吞吐量,同時僅有極小的準確度損失,有效縮小了

GripNewsGripNews
2025-10-01

🌘 利用預訓練潛在擴散模型,從 WiFi CSI 高解析度高效生成影像
➤ 從 WiFi 訊號的微小擾動中「看見」世界
arxiv.org/abs/2506.10605
研究團隊開發出一種名為 LatentCSI 的新方法,能從 WiFi CSI(通道狀態資訊)測量數據生成物理環境的影像。此方法巧妙運用預訓練的潛在擴散模型(LDM),並透過輕量級神經網路將 CSI 幅度直接映射到 LDM 的潛在空間。隨後,在潛在表示上套用 LDM 的去噪擴散過程,並輔以文字引導,最後透過 LDM 的解碼器生成高解析度影像。這種技術繞過了傳統像素空間的影像生成挑戰,省略了標準影像到影像轉換流程中常見的顯式影像編碼階段,因此能夠有效且高品質地合成影像。研究人員使用自行收集的寬頻 CSI 數據集及部分公開的 MM-Fi 數據集進行驗證,結果顯示 LatentCSI 在運算效率和感知品質上均優於直接在真實影像上訓練的對比方法,且其獨特的文字引導控制能力更增添了實用優勢。
+ 這項技術太令人驚豔了!竟然能靠 WiFi 訊號就生成影像
CSI

GripNewsGripNews
2025-09-22

🌘 擴散模型在資料受限環境下超越自迴歸模型
➤ 在算力過剩、資料匱乏的未來,擴散模型是更佳的選擇嗎?
blog.ml.cmu.edu/2025/09/22/dif
此篇文章探討了在人工智能領域中,擴散模型與自迴歸模型在資料量有限的環境下的效能差異。隨著計算資源的快速成長而資料成長停滯,預計將進入資料受限的時代。研究透過實驗發現,在具備足夠計算資源(更多訓練週期和更大的模型參數)的情況下,擴散模型表現優於自迴歸模型,尤其是在自迴歸模型開始出現過擬的情況下,擴散模型仍能持續進步。這表明在未來資料稀缺的環境中,擴散模型可能成為更有效的選擇。
+ 這篇研究很有啟發性,正好解決了我對未來AI發展瓶頸的擔憂。特別是「資料是AI的化石燃料」這句話,非常貼切!
+ 實驗結果顯示擴散模型在資料受限情況下更有優勢,這對於資源有限的研究者來說是個好消息。期待看到更多相關應用。

GripNewsGripNews
2025-09-12

🌘 Lumina-DiMOO:用於多模態生成與理解的全方位擴散大型語言模型
➤ 革新多模態AI:Lumina-DiMOO以全離散擴散模型開啟生成與理解新紀元
synbol.github.io/Lumina-DiMOO/
研究團隊發表了 Lumina-DiMOO,一個開源的基礎模型,能無縫處理多模態的生成與理解任務。其獨特之處在於採用全離散擴散模型,能有效處理不同類型的輸入與輸出,大幅提升取樣效率,並超越了先前自迴歸或混合模型。Lumina-DiMOO 在多項基準測試中表現卓越,優於現有的開源統一多模態模型,並能支援文字生成圖像、圖像編輯、主體驅動生成、圖像修補以及圖像理解等多樣化任務。為促進相關領域研究,團隊公開了程式碼與模型檢查點。
+ 這項技術聽起來很令人興奮,尤其是它能處理多種模態並且效率更高。期待看到更多基於此模型的應用。
+ 開源程式碼和模型檢查點的釋出對研究社羣來說是個大利多,希望能加速多模態AI的發展。

GripNewsGripNews
2025-09-02

🌘 透過重用運算加速文字到圖像擴散模型生成圖像集
➤ 擴散模型的智慧重用:大幅降低圖像集生成成本
arxiv.org/abs/2508.21032
本文提出一種創新的方法,能夠顯著降低文字到圖像擴散模型生成一系列相關圖像時的計算成本,同時還能提升圖像品質。該方法著重於減少跨提示之間的冗餘運算,透過將相似的提示分組,並在早期擴散步驟中共享計算。這項訓練免費的技術利用了擴散模型的粗粒到細粒特性,早期步驟能夠捕捉共享結構,從而實現顯著的效率提升,且能與現有流程無縫整合。
+ 這個方法聽起來非常棒!能夠在不犧牲品質的情況下節省計算資源,對於大規模生成任務來說意義重大。
+ 我對這個「訓練免費」的聲明感到好奇,想了解它具體是如何實現的,以及它對不同模型架構的通用性。

GripNewsGripNews
2025-08-18

🌘 TREAD:用於高效能、架構無關的擴散模型訓練的 Token 路由
➤ 突破擴散模型訓練瓶頸:TREAD 技術實現高效能與通用性
arxiv.org/abs/2501.04765
這篇研究介紹了一種名為 TREAD 的新技術,旨在克服擴散模型在訓練效率與生成效能上的瓶頸。TREAD 透過在早期層導入隨機選取的 Token 路由機制,允許其傳輸至更深的層,進而達成同時提升訓練速度和生成品質的目標。此方法不依賴特定的模型架構,適用於 Transformer 和狀態空間模型,且無需額外參數。實驗證明,TREAD 在 ImageNet-256 資料集上的類條件生成任務,相比 DiT 模型能顯著加速收斂,並在生成品質指標 FID 上取得優異表現。
+ 這項研究聽起來很有潛力,特別是它能在不改變模型架構的情況下提升訓練效率,這對於許多現有模型的應用來說非常關鍵。
+ 14x 和 37x 的收斂速度提升幅度令人印象深刻!如果能實際驗證並廣泛應用,將對生成模型的訓練成本帶來巨大改變。

GripNewsGripNews
2025-08-10

🌗 擴散語言模型:超凡的數據學習者
➤ 揭示擴散語言模型在數據限制下,超越自迴歸模型的潛藏優勢
jinjieni.notion.site/Diffusion
本文深入探討擴散語言模型(DLMs)的潛力,發現它們在固定數據預訓練預算下,展現出比自迴歸(AR)模型高出三倍以上的數據學習能力。研究指出,DLMs 透過消耗更多運算資源(FLOPs)來換取更佳的學習效果,並能有效利用雙向注意力機制充分挖掘語言數據的價值。即使在數據量受限的情況下,DLMs 也能透過重複訓練數據持續提升效能,且在不同評估指標上均展現出優於 AR 模型的表現,並分析了先前研究中存在的統計方法學問題,為未來研究提供指引。
+ 這篇研究太令人興奮了!DLMs 在數據稀缺的時代終於找到了閃光點,這對未來的模型訓練是一個巨大的啟發。
+ 總算有人點出先前研究的盲點了,感謝作者提供這麼詳實的分析,

GripNewsGripNews
2025-08-09

🌗 以擴散模型技巧注入 Qwen3,為 ARC 挑戰注入新生命
➤ 突破線性思維:擴散模型解碼 ARC 任務的新途徑
matthewnewton.com/blog/arc-cha
本文詳述作者如何將預先訓練好的 Qwen3-8B 大型語言模型,透過改寫其解碼器架構,轉化為能實現非循序性輸出的擴散模型,以應對 ARC 挑戰。作者實驗發現,透過低熵預測來循序解碼,模型能優先處理較簡單的像素,展現出「先易後難」的直覺學習行為,並在速度上有所提升,但要完全匹配現有基準的解題率,仍需更進一步的優化。
+ 這個實驗太酷了!原本以為語言模型只能線性輸出,沒想到透過擴散模型就能做到非循序填充,而且還能「預感」到哪些像素比較好處理。
+ 雖然速度和準確率有待加強,但這種「腦補」式的解題方式,感覺更有智慧。期待後續能解決快取問題,讓效率再提升。
挑戰

GripNewsGripNews
2025-07-12

🌘 DiffuCoder:理解與改進程式碼生成的遮罩擴散模型
➤ 擴散模型在程式碼生成領域的突破
arxiv.org/abs/2506.20639
本研究深入探討了擴散大型語言模型(dLLMs)在程式碼生成方面的潛力,並提出了名為DiffuCoder的模型。研究發現dLLMs在生成過程中具有獨特的優勢,例如在因果性控制和生成順序的多樣性方面,與自回歸模型(AR models)有所不同。為提高dLLMs的訓練效率與效能,研究團隊開發了一種名為coupled-GRPO的新取樣方案。實驗結果顯示,coupled-GRPO顯著提升了DiffuCoder在程式碼生成基準測試中的表現,並降低了對AR偏差的依賴。
+ 這篇文章讓我對擴散模型在程式碼生成上的可能性感到興奮,尤其是他們提出的新取樣方案。
+ 很高興看到研究人員持續探索新的模型架構和訓練方法,以提升程式碼生成的品質和效率。

GripNewsGripNews
2025-05-20

🌕 擴散模型簡明解說
➤ 探索AI圖像生成的另一種途徑
seangoedecke.com/diffusion-mod
本文深入淺出地解釋了擴散模型的原理,與基於Transformer的大型語言模型進行比較。擴散模型透過逐步去除噪點來生成圖像或其他數據,其訓練過程涉及識別並預測添加到圖像上的噪點。文章詳細闡述了訓練和推理的過程,以及變分自動編碼器(VAE)和無分類器引導等關鍵技術。此外,文章也探討了擴散模型與Transformer模型在運作方式上的根本差異,並分享了對擴散模型成功背後潛在機制的猜測,以及擴散模型在影片生成上的應用。
+ 這篇文章用非常清楚的方式解釋了擴散模型,讓我對AI圖像生成技術有了更深入的瞭解。
+ 雖然文章解釋得很詳細,但擴散模型的底層機制還是有些難以理解,希望未來能有更簡單易懂的解釋。

GripNewsGripNews
2025-03-07

🌘 擴散模型令人感興趣
➤ 擴散模型如何改善語言生成過程
rnikhil.com/2025/03/06/diffusi
一家名為Inception Labs的公司推出了一種擴散語言模型(dLLM),它不再是自回歸式的,而是同時生成與驗證文本,這在代碼生成方面表現超過類似大小的傳統模型,宣稱速度和效率提升5-10倍。
+ 這種技術的改進是否能應用於更多的實際案例呢?
+ 我想知道這樣的模型在真正的客戶服務中表現如何!

卡拉今天看了什麼ai_workspace@social.mikala.one
2024-09-03

Diffusion is spectral autoregression – Sander Dieleman

Link
📌 Summary:
這篇文章探討了擴散模型和自回歸模型之間的相似性,指出擴散模型實際上在頻域中實現了近似自回歸。本文作者使用Python Notebook形式提供了分析工具,讓讀者可以重現圖示和分析。文章討論了擴散過程如何通過可能的頻域解釋來理解圖像生成的特性,並提到擴散與自回歸之間的潛在聯繫,特別是在視覺數據方面。作者也簡要提到音頻領域的擴散模型可能無法完全類比於圖像的情況,並探討了不同模態未來融合的潛力。

🎯 Key Points:
- 擴散模型和自回歸模型在生成模型的架構上有共同之處,都是通過逐步預測來簡化生成複雜數據的任務。
- 擴散模型的特性在於其粗到細的生成過程,較早的去噪步驟決定圖像的大範圍結構。
- 文中使用傅立葉變換探討了圖像的頻率結構,並發現自然圖片的頻譜遵循近似的冪律特徵。
- 文章分析了音頻中的擴散過程,發現其頻譜表現出不同於圖像的特性,並指出作者對於音頻和圖像頻譜的比較。
- 未來的研究可能會將擴散和自回歸模型進一步結合,以應用於多模態生成。

🔖 Keywords:
#擴散模型 #自回歸模型 #傅立葉變換 #視覺數據 #音頻數據

GripNewsGripNews
2024-03-11

🌘 從頭建立擴散模型
➤ 從零開始建立擴散模型
chenyang.co/diffusion.html
最近擴散模型在生成建模領域取得印象深刻的成果,特別是在從多模態分佈中取樣方面。擴散模型不僅在文本到圖像生成工具中廣泛應用,還在其他應用領域表現優異,如音頻/視頻/3D生成、蛋白質設計、機器人路徑規劃等,這些都需要從多模態分佈中取樣。本教程旨在從優化角度介紹擴散模型,並將著重於理論和程式碼,使用理論來解釋如何從頭實現擴散模型。教程將引用來自smalldiffusion的程式碼。通過本教程,您將學習如何為玩具數據集實現訓練和取樣代碼,該代碼也適用於更大的數據集和模型。
+ 優秀的教程,清晰解釋了擴散模型的理論和實作方法。
+ 精簡扼要地介紹了關於擴散模型的重要概念,讓讀者容易理解。

GripNewsGripNews
2023-11-30

🌘 使用擴散模型生成多視角光學幻覺
➤ 簡單方法生成多視角光學幻覺
dangeng.github.io/visual_anagr
本文介紹了一種簡單且零訓練的方法來生成多視角光學幻覺。我們使用預訓練的擴散模型來估計圖像在不同視角或轉換下的噪音,並通過將逆視角應用於噪音估計並將其平均,來生成光學幻覺。
+ 這種方法非常有趣,讓人對光學幻覺的生成產生了新的想法。
+ 這項研究拓展了光學幻覺的生成方式,為視覺效果研究帶來了新的可能性。

GripNewsGripNews
2023-09-02

🌘 GitHub - cabralpinto/modular-diffusion: 設計和訓練自己的 PyTorch 擴散模型的 Python 函式庫
➤ Python 函式庫,用於設計和訓練自己的擴散模型
github.com/cabralpinto/modular
這是一個 Python 函式庫,可用於設計和訓練自己的擴散模型,並提供高度模塊化的設計,以及預先構建的模塊和與 PyTorch 的集成。
+ 這是一個很棒的函式庫,對於想要設計和訓練自己的擴散模型的人來說非常有用。
+ 這個函式庫的模塊化設計非常好,使得使用者可以輕鬆地更換不同的擴散過程組件,並且提供了許多預先構建的模塊,讓使用者可以快速入門。

jasontrckjasontrck
2023-06-21

Meta AI的研究人員們號稱在語音生成的AI領域取得了突破性進展,他們開發出了名為 的模型,號稱是第一個能夠在未受特別訓練就能達成語音生成任務且達到最高水準性能的模型。"

Voicebox基於一種名為 的方法論,這種方法已被證實可以改進
🔥 Voicebox 在英語模型VALL-E的基礎上,獲得了新的最高水平的結果,並在單詞正確率上超越了Vall-E和YourTTS。

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst