Llama.cpp ra mắt tính năng tự động hóa phân bổ GPU, hỗ trợ kiểm soát bộ nhớ cho MoE với công cụ `llama-fit-params`. Công nghệ này tối ưu hóa việc phân chia VRAM, giảm thủ công, đồng thời nâng cao hiệu suất trên nhiều GPU. Benchmark cho thấy VRAM sử dụng hiệu quả (~85-90%) và tốc độ xử lý tăng đáng kể khi thêm GPU. 🚀 #AI #machinelearning #LlamaCPP #LLM #VNMLO #CôngnghệAI

