#%E8%A6%96%E8%A6%BA%E6%A8%A1%E5%9E%8B

王永帥🍥yongshuai1013
2025-03-03

字節跳動等團隊開源了一個同時用於生成和理解任務的視覺分詞器:UniTok,性能優於現有模型

可以與多種類型的模型相容,自回歸生成模型比如 LlamaGen、多模態理解模比如 LLaVA,以及統一的多模態模型比如Chameleon和 Liquid相容

一個模型解決兩個問題,用做同時進行圖像生成和理解的場景,節省資源

在生成高品質圖像和理解複雜的視覺內容上表現出色

專案地址: github.com/FoundationVision/UniTok

王永帥🍥yongshuai1013
2025-02-03

R1-V,不到3美元就可以訓練出一個視覺語言模型的方法,一個2B的模型在100個訓練步驟後,在OOD中超過了72B的模型

R1-V主要透過強化學習來提升視覺語言模型的泛化能力,其在8塊A100 GPU上進行訓練,耗時30分鐘,總成本為2.62美元

專案地址: github.com/Deep-Agent/R1-V

GripNewsGripNews
2023-12-05

🌘 大幅規模的視覺模型的連續建模刺激可擴展的學習
➤ 連續建模方法使大幅規模的視覺模型能夠有效擴展訓練
yutongbai.com/lvm.html
作者介紹了一種新的連續建模方法,使得可以在不使用任何語言資料的情況下學習大幅規模的視覺模型。他們定義了一種通用格式,"視覺句子",可以將原始圖像和視頻以及帶有語義分割和深度重建等註釋數據源表示為序列。通過訓練模型以最小化交叉熵損失來預測下一個令牌,他們提供了實證證據表明他們的模型能夠有效擴展。設計適當的提示,可以解決許多不同的視覺任務。
+ 這種連續建模方法似乎是一個有潛力的方法,可以解決視覺領域的多個任務。
+ 很難想像在不使用任何語言資料的情況下,能夠學習如此大幅規模的視覺模型。這項研究的成果令人印象深刻。

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst