Tôi đã tạo một mô hình chơi Wordle bằng cách tinh chỉnh GRPO + TRL + OpenEnv trên Colab! Mô hình này sử dụng học tăng cường và môi trường OpenEnv. #Wordle #TRL #OpenEnv #GRPO #HọcTăngCường #MôHìnhHọcMáy #Colab #ReinforcementLearning #AI
https://www.reddit.com/r/LocalLLaMA/comments/1p5d3j6/i_finetuned_a_model_with_grpo_trl_openenv/