#開源分享 字節跳動等團隊開源了一個同時用於生成和理解任務的視覺分詞器:UniTok,性能優於現有模型
可以與多種類型的模型相容,自回歸生成模型比如 LlamaGen、多模態理解模比如 LLaVA,以及統一的多模態模型比如Chameleon和 Liquid相容
一個模型解決兩個問題,用做同時進行圖像生成和理解的場景,節省資源
在生成高品質圖像和理解複雜的視覺內容上表現出色
專案地址: github.com/FoundationVision/UniTok
#視覺分詞器 #UniTok #視覺模型