Mô hình AI tiên tiến đang tự đánh giá lẫn nhau: 10 mô hình trả lời cùng một câu đố logic (lịch 5 người, 5 ngày, 9 ràng buộc) và 8 mô hình khác chấm điểm ẩn danh. Kết quả cho thấy Olmo 32B vượt qua các mô hình Claude flagship, dù có độ lệch cao (±4.12). 50/90 đánh giá đạt chuẩn. Ai đang chạy Olmo 3.1 locally và dùng quantization nào? #AI #MachineLearning #AIVietnam #Olmo #Claude #NghiênCứu #MôHình #ĐánhGiá
https://www.reddit.com/r/LocalLLaMA/comments/1qisu0u/olmo_31_32b_think_beats_claude_opus_4









