#%E6%A8%A1%E5%9E%8B%E5%A3%93%E7%B8%AE

GripNewsGripNews
2025-04-06

🌗 SeedLM:將大型語言模型權重壓縮為偽隨機生成器的種子
➤ 透過偽隨機生成器種子實現高效的模型壓縮
machinelearning.apple.com/rese
Apple 機器學習研究團隊提出 SeedLM,這是一項新穎的後訓練模型壓縮方法。SeedLM 使用偽隨機生成器的種子來編碼和壓縮模型權重,透過線性回饋移位暫存器 (LFSR) 產生隨機矩陣,並與壓縮係數線性組合來重建權重區塊。此方法能減少記憶體存取次數,並在推理過程中利用閒置的運算週期,藉由犧牲部分運算量來換取更少的記憶體存取,從而加速記憶體受限的任務。SeedLM 不需要校準資料,並在多種任務中展現良好的泛化能力。實驗結果顯示,在 Llama 3 70B 模型上,SeedLM 在 4 位元和 3 位元壓縮時,在零樣本準確度方面與現有最佳方法不相上下,甚至更勝一籌,同時保持與 FP16 基線相當的效能。此外,基於 FPGA 的測試顯示,4 位元的 SeedLM 模型在模型大小增加的情況下,速度比 F

GripNewsGripNews
2024-12-02

🌗 2:4 Sparse Llama: 更高效 GPU 推論的較小模型
➤ 稀疏 Llama: 改善大型語言模型的效率和性能
neuralmagic.com/blog/24-sparse
Sparse Llama 3.1 8B 是 Meta Llama 3.1 8B 基礎上建造的第一個稀疏、高準確度的基礎模型,具有 98% 的恢復率並適用於各種微調任務。它採用了 2:4 稀疏模式,與 NVIDIA Ampere GPU 和更新版本兼容,通過稀疏性單獨提供高達 30% 的吞吐量提高和 1.8 倍低延遲。該模型全面整合了先進的 4 位量化方法,能帶來 1.4-4.9 倍的速度提升,並引入了更高效的稀疏-Marlin 推斷內核。
+ 新型的 Sparse Llama 模型顯示出非常有前途,為模型壓縮和 GPU 推論開啟了新的方向。
+ 這項研究的成果在機器學習領域有著重要的應用價值,對於提高人工智能部署性能和降低成本具有重要意義。
推論

GripNewsGripNews
2023-08-05

🌗 介紹MK-1
➤ MK-1的功能和優勢
mkone.ai/blog/introducing-mk1
MK-1是一個旨在提供AI模型效能優化的工具,可以大幅降低推理成本並提高速度。它可以壓縮模型大小,同時保持高度的模型忠實度,並且與常用的生態系統相容。MK-1還提供了簡單易用的整合流程,使得使用者能夠輕鬆地將其應用於現有工作流程中。
+ 這個工具聽起來非常有用,我很想試試看。
+ 這將是一個革命性的工具,可以幫助公司節省成本並提高效能。

GripNewsGripNews
2023-05-25

🌘 bitsandbytes和4位量化使LLMs更易於使用
➤ Hugging Face與bitsandbytes合作,使大多數HF模型都可以在4位精度下運行,並且可以使用QLoRA進行微調。
huggingface.co/blog/4bit-trans
本文介紹了Hugging Face與bitsandbytes合作,使大多數HF模型都可以在4位精度下運行,並且可以使用QLoRA進行微調。QLoRA是一種新的微調方法,可以在不影響性能的情況下減少記憶體使用,並且可以在單個GPU上微調65B參數模型。本文還介紹了4位浮點數的表示方法和QLoRA的工作原理。
+ 這是一個非常有用的技術,可以使更多的人使用LLMs,而不需要昂貴的硬件。QLoRA的引入還可以使微調更加高效。
+ 4位量化是一個非常有前途的技術,可以在不影響性能的情況下減少記憶體使用。這對於微調大型模型非常有用,因為它們需要大量的記憶體。

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst