#%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92

GripNewsGripNews
2025-10-31

🌘 Kimi Linear:一種具表達力且高效的注意力架構
➤ 突破長文本瓶頸,Kimi Linear 模型開源釋出
github.com/MoonshotAI/Kimi-Lin
Kimi Linear 是一種創新的混合線性注意力模型,透過 Kimi Delta Attention (KDA) 核心技術,顯著提升了處理長文本序列的能力。該模型在各種情境下均超越傳統的完整注意力機制,尤其在長上下文任務上表現卓越,能大幅減少記憶體使用並提升處理速度。Kimi Linear 已開源,並提供了預訓練模型供研究與應用。
+ 這項技術聽起來很有前景,特別是對於需要處理大量文字的應用。希望它能真正解決目前大型語言模型在長文本理解上的限制。
+ 感謝開發團隊的貢獻!開源 KDA 核心和模型,將有助於整個社羣的進步。期待看到更多基於 Kimi Linear 的創新應用。

GripNewsGripNews
2025-10-25

🌘 2019年機器學習框架現況
➤ PyTorch稱霸學術界,TensorFlow工業界仍佔優勢
thegradient.pub/state-of-ml-fr
這篇文章深入探討了2019年機器學習框架的發展現況,特別聚焦於TensorFlow和PyTorch兩大主流框架。作者透過分析學術會議論文的數據,指出PyTorch在學術研究領域已取得壓倒性優勢,研究人員正大規模轉向PyTorch,而TensorFlow在學術界的影響力則持續衰退。文章也解釋了PyTorch受研究者青睞的原因,包括其簡潔易用的Pythonic介面、易於調試以及快速的迭代能力。然而,在產業應用方面,TensorFlow仍是目前的主流,這歸因於其長久以來在生產環境部署上的優勢,例如對無Python運行環境的需求、行動裝置支援(TensorFlow Lite)以及高效的模型服務(TensorFlow Serving)。文章最後

GripNewsGripNews
2025-10-20

🌕 BERT 僅是單一步驟的文本擴散
➤ 從遮罩語言模型到文本生成:BERT 的擴散潛力
nathan.rs/posts/roberta-diffus
本文探討了離散文本擴散模型,並指出其本質上是遮罩語言模型 (MLM) 的一種泛化。作者透過實驗證明,即使是 BERT 這類傳統的編碼器模型,也能透過引入變化的遮罩率和逐步的去噪步驟,轉化為具備生成能力的文本擴散模型。研究藉助 RoBERTa 模型,在 WikiText 資料集上進行了微調,並實作了自訂的資料處理器,以模擬文本擴散的過程。此方法與現有的 Gemini Diffusion 和 DiffusionBERT 研究方向一致,為以 BERT 架構進行文本生成開闢了新途徑。
+ 這篇文章解釋了擴散模型和 BERT 之間的關聯,太驚人了!我一直以為 BERT 只能做理解任務。
+ 作者的實驗設計很有趣,用 RoBERTa 來實現文本擴散,提供了實際操作的細節,感謝分享!

GripNewsGripNews
2025-10-18

🌘 誰發明瞭深度殘差學習?
➤ 從梯度消失的解方到現代AI的基石
people.idsia.ch/~juergen/who-i
本文追溯了深度殘差學習的發明歷程,指出其關鍵技術「殘差連接」最早可追溯至1991年Sepp Hochreiter為解決遞歸神經網路(RNN)中的梯度消失問題所提出的概念。此後,1997年的長短期記憶(LSTM)網路進一步發展了帶有權重1.0的純粹遞歸殘差連接,並在1999年透過引入「遺忘閘門」使其具備了學習調控殘差連接的能力。2005年,隨著「反向傳播隨時間演算法」(BPTT)的應用,LSTM的遞歸結構被展開為深度前饋神經網路(FNN),使得殘差連接能夠應用於更深的網路架構。最終,2015年,受LSTM閘門機制的啟發,Highway Networks(後來的「閘門式殘差網路」)將這種思想遷移到前饋網路,成功建構了數百層的深度網路,成為深度學習領域的一大突破。
+ 這篇文章清楚地闡述了殘差連接的演進,沒想到這麼早就有人提出解決梯度

GripNewsGripNews
2025-10-17

🌕 安德烈·卡爾帕西:通用人工智能仍需十年
➤ 卡爾帕西深入剖析AGI發展藍圖,點出產業的過度期待
dwarkesh.com/p/andrej-karpathy
在一次訪談中,卡爾帕西認為,雖然通用人工智能(AGI)的發展面臨許多可克服但仍艱難的挑戰,但產業界對其實現時間的預測過於樂觀。他主張,AGI 的發展更應被視為一個「數年的進程」,而非「一年內」的突破。卡爾帕西回顧了人工智能領域的幾個重大轉折點,包括深度學習的興起及對強化學習的過度關注,並指出目前的大型語言模型(LLM)在持續學習、多模態理解及與現實世界互動等方面仍有顯著不足。他認為,要讓 AI 具備如真人助理般的能力,還需要約十年的時間來解決這些關鍵問題。
+ 這篇文章分析得很透徹,終於有人點出AI發展的瓶頸了,十年聽起來雖然久,但確實是務實的預測。
+ 很有啟發性!對於AI的未來發展和教育的影響,都有獨到的見解,值得深入思考。

GripNewsGripNews
2025-10-16

🌘 從頭開始撰寫大型語言模型,第 22 部分 — 終於訓練我們的模型!
➤ 我的第一個 LLM 真的開口說話了!
gilesthomas.com/2025/10/llm-fr
作者 Giles 分享他跟隨書籍《從頭建立大型語言模型》的腳步,完成訓練自己模型的過程。他首先訓練了一個基於 Edith Wharton 短篇小說的小型模型,並展示了其初步生成文本的能力。接著,他載入 OpenAI 提供的 GPT-2 1.24 億參數模型權重,並驚喜地發現模型能生成連貫且具遊戲規則般的指令文字。文章也探討了程式碼中隨機性與種子設置的細節,以及優化器(如 AdamW)在模型訓練中的作用,作者認為優化器能動態調整學習率,幫助模型更有效地收斂。
+ 太棒了!從零開始建立 LLM 的過程真是令人著迷。看到自己的模型生成文字,肯定很有成就感。
+ 隨機性和種子設置的細節很有用。我也常遇到想重現結果卻碰壁的情況,這篇文章的解釋讓人茅塞頓開。

GripNewsGripNews
2025-10-10

🌘 離散分佈網絡 (DDN):一種新穎的生成模型,具備簡潔原理與獨特屬性
➤ 解鎖生成模型的全新維度:DDN 以離散層級架構與分裂剪枝演算法重塑數據分佈近似
discrete-distribution-networks
本文介紹了一種名為離散分佈網絡 (DDN) 的新穎生成模型。DDN 透過層層遞進的離散分佈來近似數據分佈,其核心在於讓網絡能同時生成多個樣本,而非單一輸出。這種方法能夠更有效地捕捉數據中的分佈資訊。訓練 DDN 時,作者提出了「分裂與剪枝 (Split-and-Prune)」優化演算法,並輔以一系列實用技術。DDN 展現了零樣本條件生成(即使在無梯度情況下)和獨特的 1D 離散表示等迷人特性。實驗結果顯示,DDN 在密度估計、圖像重建、條件生成(如文本到圖像)以及風格轉換等任務上表現出色。
+ 這個 DDN 模型聽起來很有意思,特別是它能生成多個樣本來代表分佈,這跟傳統方法很不一樣。零樣本條件生成的功能也很吸引人。
+ 分裂與剪枝的優化方法在處理密度估計時聽起來很有潛力,期待看到它在更複雜

GripNewsGripNews
2025-10-07

🌗 梯度下降如何運作?
➤ 揭示深度學習中梯度下降的真實動態
centralflows.github.io/part1/
本文探討了梯度下降在深度學習中的實際運作機制,挑戰了傳統的理論觀點。研究發現,在深度學習任務中,梯度下降的過程經常會進入「不穩定區域」,即損失函數的曲率(以 Hessian 矩陣的最大特徵值衡量)超過了由學習率決定的臨界值 \(2/\eta\)。在這些區域,模型應根據傳統理論發生震盪並發散,但實際上,模型卻能神奇地「跳出」這些區域,使得曲率再次下降,從而恢復收斂。作者展示了這種現象的實驗證據,並提出這解釋了梯度下降為何能在深度學習中有效工作,即使其損失函數的局部二次近似預測會導致發散。
+ 這篇文章的實驗結果令人驚訝!我一直以為梯度下降會乖乖待在「穩定區域」裡,原來它實際上的行為這麼「大膽」。
+ 終於有論文能解釋為什麼理論上應該發散的地方,實際上梯度下降卻能正常工作了!這對我理解深度學習的優化有很大的幫助。

GripNewsGripNews
2025-10-07

🌘 打造能實際運作的 AI 代理:生產力達標的關鍵 5%
➤ 深入剖析 AI 代理程式在生產環境中脫穎而出的核心技術與實踐
motivenotes.ai/p/what-makes-5-
儘管許多創業者認為他們正在開發 AI 產品,實際上他們構築的卻是「情境選擇系統」。許多 AI 代理程式在生產環境中以失敗告終,並非模型能力不足,而是圍繞模型的「情境工程」、「推論堆疊設計」等基礎架構未能完善。本文深入探討了成功的 AI 代理程式如何透過精準的情境選擇、語意與中繼資料分層、安全治理以及人性化的協作模式,突破了 95% 的失敗率,真正實現生產力。
+ 這篇文章點出了許多 AI 產品開發的痛點,特別是情境工程的重要性,確實是過去常被忽略的一環。
+ 看到作者將 AI 代理定位為「助手」而非「自主決策者」,並強調人類在迴圈中的角色,這纔是一個務實的 AI 發展方向。

GripNewsGripNews
2025-10-06

🌘 矩陣乘法的分塊處理:優化深度學習運算
➤ 揭開矩陣乘法優化的神祕面紗
alvinwan.com/how-to-tile-matri
這篇文章深入淺出地介紹了矩陣乘法的「分塊」(Tiling)優化技術。作者透過圖文並茂的方式,說明瞭分塊如何透過重用資料和將輸出分割成小區塊,顯著減少記憶體讀取的次數,從而降低運算延遲,提升效率。此技術對於依賴密集矩陣乘法的模型(如大型語言模型)尤其重要,文章也探討了分塊的原理、效率以及硬體限制。
+ 這篇文章的圖解真是太棒了!以前對分塊總是一知半解,看完之後終於豁然開朗。強烈推薦給對機器學習底層運作有興趣的朋友。
+ 技術細節解釋得很清楚,特別是關於記憶體頻寬瓶頸的分析,非常有啟發性。希望後續的系列文章能繼續深入探討。

GripNewsGripNews
2025-10-03

🌖 [Gluon][教學] 持續性注意力機制
➤ Triton 核心效能升級:實現持續性注意力機制,加速低語境運算
github.com/triton-lang/triton/
此篇 GitHub 拉取請求(Pull Request)提出一項重大的效能優化,透過重寫注意力(Attention)核心,使其成為「持續性」的運算單元,顯著提升了在低語境長度下的運算速度。雖然在極長語境下的 fp16 效能稍有下降,但 fp8 運算速度卻大幅躍升,尤其是在使用「cutlass」相關的 Kernel 時,效能提升高達 100 TFLOPS。此更新不僅改善了模型的處理效率,也為未來的模型架構發展提供了新的方向。
+ 這個更新真是太棒了!原本對低語境的效能感到有些瓶頸,現在看起來有了解決方案。 fp8 的巨大提升也讓人期待!
+ 看到 fp16 在長語境下效能略降有點擔心,但整體趨勢是向好的。希望後續能進一步優化,解決 ptxas 排程問題。

GripNewsGripNews
2025-09-27

🌘 深度解析 Flash Attention 4:逆向工程揭開其加速原理
➤ 揭祕 AI 加速的最新利器:Flash Attention 4 的底層技術與效能優化
modal.com/blog/reverse-enginee
本文深入解析了 Flash Attention 4 (FA4) 的運作機制,這是一種為 Transformer 神經網絡設計的 CUDA 核心,能顯著加速生成式 AI 工作負載。研究團隊透過逆向工程其開源程式碼,揭示 FA4 如何透過對 Nvidia 新一代 Blackwell 架構的優化,並結合創新的數學技巧(如近似指數運算和高效的線上 Softmax),實現了比前代技術約 20% 的速度提升。文章特別強調,FA4 的關鍵改進在於其複雜的非同步運算管線,這在 CUDA 編程中是較新的概念,但對於熟悉並行與併發程式設計的開發者而言並不陌生。透過「快速導覽」和「深度剖析」兩部分,詳細闡述了數據在 GPU 記憶體層級間的移動與轉換過
Attention

GripNewsGripNews
2025-09-26

🌘 純大型語言模型時代的終結?連圖靈獎得主也轉向。
➤ 從「極致擴展」到「世界模型」:AI學界對大型語言模型的反思。
garymarcus.substack.com/p/game
AI領域的知名學者蓋瑞·馬庫斯(Gary Marcus)指出,連以「極致擴展」(scaling)理論聞名的圖靈獎得主李·薩頓(Rich Sutton)也開始質疑純粹依賴大型語言模型(LLM)的發展方向。馬庫斯認為,薩頓的轉變以及自身長期以來對LLM的批評,顯示出AI界主流已逐漸意識到僅靠擴展模型規模已不足以實現真正的智能。雖然薩頓和馬庫斯在解決方案上仍有分歧,例如薩頓偏好強化學習,而馬庫斯主張神經符號方法與內在約束,但雙方均強調「世界模型」的重要性,並認可純粹預測的侷限性。馬庫斯總結,當連推崇擴展理論的薩頓都開始與自己觀點相似時,意味著純LLM時代的「遊戲結束」了。
+ 我一直認為單純的擴展不是萬靈丹,很高興看到更多權威人士也開始這麼想。薩頓的轉變確實讓人意外,也給了我們一

GripNewsGripNews
2025-09-26

🌘 模組化流形:保持神經網路穩健的關鍵
➤ 透過約束權重矩陣於流形,革新神經網路訓練的穩定性與效率
thinkingmachines.ai/blog/modul
本文探討了在訓練大型神經網路時,維持張量(權重、激活值、梯度)在適當尺度上的重要性,以避免數值溢位或歸零等問題。作者介紹了「模組化流形」的概念,這是一種將權重矩陣約束在特定流形上的方法,並提出了一種基於此概念的流形版 Muon 優化器,旨在提升訓練效率和模型穩定性。這種方法有助於理解優化更新的相對大小,減輕權重範數爆炸的風險,並可能為模型提供更強的穩健性保證。文章最後展望了模組化流形的潛力,希望能激勵更多研究。
+ 這個「模組化流形」的概念聽起來很有趣,特別是它能讓訓練過程更可預測。期待看到更多實際應用的例子!
+ 將優化與流形約束結合是個聰明的想法,這似乎能解決許多現有方法的痛點。

GripNewsGripNews
2025-09-25

🌘 影片模型展現零樣本學習與推理能力
➤ 影片模型新紀元:走向通用視覺基礎模型
video-zero-shot.github.io/
Google DeepMind 的一項研究指出,影片模型 Veo 3 在多種視覺任務上展現了出乎意料的零樣本(zero-shot)學習能力,能夠在未經明確訓練的情況下執行分割、邊緣偵測、圖像編輯、理解物理性質及視覺推理等任務。研究人員認為,這顯示影片模型正朝向成為如同大型語言模型(LLM)般的通用視覺基礎模型邁進,具備感知、建模、操作及推理視覺世界的能力。
+ 這篇研究太令人興奮了!Veo 3 的零樣本能力真的很驚人,感覺就像看到 AI 在視覺領域的下一個重大突破。
+ 很好奇 Veo 3 是如何克服如此多樣化的任務,而且是在未經顯式訓練的情況下。期待看到更詳細的技術說明。

GripNewsGripNews
2025-09-24

🌗 深度研究員結合測試時擴散模型:打造自動化長篇報告與推理新境界
➤ 仿效人類研究流程,AI 框架以擴散模型革新報告撰寫與推理任務
research.google/blog/deep-rese
Google 的研究員開發出一種名為「測試時擴散深度研究員」(Test-Time Diffusion Deep Researcher, TTD-DR)的創新框架,旨在模仿人類研究者的寫作流程。此框架將撰寫研究報告的過程比擬為一種擴散過程,從一個初步的草稿開始,透過不斷地搜尋、擷取資訊並據以修正,逐步將「雜訊」般的草稿精煉成高品質的最終報告。TTD-DR 採用了兩種關鍵演算法:一是「逐元件優化 via 自我演進」,提升研究流程中每一步驟的品質;二是「逐報告精煉 via 擷取式去噪」,利用新擷取的資訊來修訂與改進報告草稿。這種結合了迭代式精煉與自我演進的機制,成功地在長篇報告撰寫和複雜的多步驟推理任務上,達到了目前最先進的成果,為 AI 在研究領域的應用開啟了

GripNewsGripNews
2025-09-14

🌘 五秒內複製人聲,即時生成任意語音
➤ 透過先進的深度學習技術,實現即時且個人化的語音合成
github.com/CorentinJ/Real-Time
本專案實作了基於 SV2TTS (Speaker Verification to Multispeaker Text-To-Speech Synthesis) 的語音複製技術,能從幾秒鐘的音訊中建立數位語音模型,並即時生成使用該聲音的任意語音。專案整合了多篇學術論文的研究成果,並提供了詳細的安裝與使用說明,包含依賴套件、預訓練模型下載、以及啟動展示工具箱的步驟。專案支援 Windows 與 Linux,並建議使用 GPU 以提升訓練與推論效能。
+ 這真是太厲害了!竟然能在這麼短的時間內複製出一個人的聲音,而且還能即時生成語音,這在語音助手或內容創作上應用潛力無限。
+ 對於想自己動手做的開發者來說,這個專案的說明很清楚。雖然提到現成的SaaS服務可能音質更好,但開源的自由度和學習價值是無可取代的。

GripNewsGripNews
2025-09-13

🌘 視窗即一切:神經網路操作的語法
➤ 從資料結構導向通用神經網路操作設計的新理論框架
zenodo.org/records/17103133
本文提出「廣義視窗化操作」(GWO) 的理論框架,旨在統一深度學習中現有的、高度專業化的運算基元(如矩陣乘法和卷積)。GWO 將這些操作分解為三個獨立的組成部分:路徑 (Path)、形狀 (Shape) 和權重 (Weight),分別定義操作的局部性、幾何結構與對稱性假設,以及特徵的重要性。研究人員進一步提出「結構對齊原則」,認為當 GWO 的 (P, S, W) 配置能反映資料的內在結構時,模型便能達到最佳泛化能力。此原則被證明是「資訊瓶頸」(IB) 原則的直接結果。為形式化此理論,文章定義了基於 Kolmogorov 複雜度的「操作複雜度」指標,並認為複雜度的性質(是貢獻於蠻力容量還是適應性正規化)纔是決定泛化能力的關鍵。研究結果顯示,GWO 的複雜度若能適應性地與資料結構對齊,將能獲得更優的泛化界限。現有的標準運算及其現代變體,皆可視為 IB 目標的最佳解。本文的

GripNewsGripNews
2025-09-10

🌘 uGMM-NN:單變量高斯混合模型神經網路
➤ 革新神經網路:嵌入概率推理的單元
arxiv.org/abs/2509.07569
一篇新發表的論文介紹了一種名為 uGMM-NN 的新穎神經網路架構,它將概率推理直接整合到深度網路的計算單元中。與傳統神經網路不同,uGMM-NN 的節點透過學習均值、變異數和混合係數來參數化其激活,使其能捕捉多峯性和不確定性,同時保持標準前饋網路的可擴展性。研究顯示,uGMM-NN 在識別任務上的表現可與傳統多層感知機媲美,並能提供激活的概率解釋,為整合不確定性感知組件和開發新的判別式及生成式模型奠定基礎。
+ 這聽起來很有前景!將不確定性直接納入神經元層級,有望解決許多深度學習模型在實際應用中的魯棒性問題。
+ 我很好奇它的訓練複雜度和實際性能表現如何。與現有模型相比,uGMM-NN 的計算成本會顯著增加嗎?

GripNewsGripNews
2025-09-10

🌘 擊敗大型語言模型推理中的不確定性
➤ 揭開 LLM 推理不確定性的面紗,尋找可複現的答案
thinkingmachines.ai/blog/defea
本文深入探討了大型語言模型(LLM)推理過程中普遍存在的不確定性問題,指出即使在溫度設為零(理論上應為確定性)的情況下,模型輸出仍會因浮點數計算的非結合性與並行執行交織影響而產生差異。文章不僅駁斥了僅將問題歸咎於「並行+浮點數」假設的觀點,還揭示了導致結果不穩定的根本原因,並提出了克服此問題、實現真正可複現推理的方法。
+ 這篇文章解釋了我一直以來在 LLM 推理中遇到的問題,原來罪魁禍首是浮點數的非結合性!
+ 非常實用的技術分析,期待作者分享如何克服不確定性的具體方法。

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst