#CPUInference

2026-01-24

Chạy mô hình MoE (GLM-4, GPT-OSS) trên CPU/RAM: Hiệu năng phụ thuộc vào băng thông bộ nhớ, không phải dung lượng. Với DDR5-6000 (hiệu dụng ~35GB/s), tốc độ đạt 20.5 tokens/giây (GLM-4.7-Flash) và 13.7 tokens/giây (GPT OSS 120B). Cần tối ưu BIOS (XMP, PL1/PL2 219W), làm mát tốt, undervolt và compile `llama.cpp` đúng cấu hình (Raptor Lake). Dùng `taskset` để chạy trên P-cores, tận dụng GPU để tăng tốc.

#AI #LLM #MoE #GLM4 #GPTOSS #CPUInference #llama.cpp #MachineLearning #TríTuệNhânTạo #MôHìnhN

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst