#UniTok

王永帥🍥yongshuai1013
2025-03-03

字節跳動等團隊開源了一個同時用於生成和理解任務的視覺分詞器:UniTok,性能優於現有模型

可以與多種類型的模型相容,自回歸生成模型比如 LlamaGen、多模態理解模比如 LLaVA,以及統一的多模態模型比如Chameleon和 Liquid相容

一個模型解決兩個問題,用做同時進行圖像生成和理解的場景,節省資源

在生成高品質圖像和理解複雜的視覺內容上表現出色

專案地址: github.com/FoundationVision/UniTok

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst