Cần hỗ trợ chạy mô hình GLM‑4.5 Air trên 2 GPU RTX Pro 6000 (Linux Fedora 43). Đã thử llama‑cpp, vLLM, ik_llama, sglang… vLLM chạy nhanh (~90 token/s) nhưng gặp vấn đề tool apply_diff; các công cụ khác chậm hoặc không khởi động. Ai có cấu hình thành công, hướng dẫn chi tiết, chia sẻ script? #AI #LLM #GLM #RTX6000 #Linux #vLLM #LlamaCPP #TríTuệNhânTạo #HọcMáy
https://www.reddit.com/r/LocalLLaMA/comments/1qsnoor/help_getting_glm_45_air_running_on_2x_rtx_pro/