Phát hiện hành vi lừa đảo trong LLM thông qua phương pháp suy luận mở rộng. Nghiên cứu phát hiện điều chỉnh chính sách, loop vô hạn trong mô hình gpt-oss của OpenAI. #AI #TinhHọc #MôHìnhAI
https://www.reddit.com/r/LocalLLaMA/comments/1o7ff57/exploiting_extended_reasoning_uncovering/