Mô hình AI càng được tinh chỉnh lại càng kém đa dạng? Đó là hiệu ứng "nén xác suất" (squeezing effect). Khi dùng DPO, khối lượng xác suất bị dồn về token chiếm ưu thế, khiến mô hình sinh lời nhàm chán, sai lệch. Giải pháp: đưa cả phản hồi bị từ chối vào giai đoạn SFT trước DPO. Kết quả: tăng 8-15% điểm so sánh, giảm lặp & ảo giác. Cải tiến nhỏ, hiệu quả lớn. #AIAlignment #LLM #SqueezingEffect #DPO #MachineLearning #TríTuệNhânTạo #MôHìnhNgônNgữ #AI #DeepLearning











