Chạy mô hình MoE (GLM-4, GPT-OSS) trên CPU/RAM: Hiệu năng phụ thuộc vào băng thông bộ nhớ, không phải dung lượng. Với DDR5-6000 (hiệu dụng ~35GB/s), tốc độ đạt 20.5 tokens/giây (GLM-4.7-Flash) và 13.7 tokens/giây (GPT OSS 120B). Cần tối ưu BIOS (XMP, PL1/PL2 219W), làm mát tốt, undervolt và compile `llama.cpp` đúng cấu hình (Raptor Lake). Dùng `taskset` để chạy trên P-cores, tận dụng GPU để tăng tốc.
#AI #LLM #MoE #GLM4 #GPTOSS #CPUInference #llama.cpp #MachineLearning #TríTuệNhânTạo #MôHìnhN