#L%C6%B0%E1%BB%A3ngT%E1%BB%ADH%C3%B3a

2025-11-30

Người dùng đã cập nhật biểu đồ lượng tử hóa LLM, tập trung hiệu suất trên RAM 8GB. Phát hiện: các tác vụ như toán học giảm chất lượng nhanh hơn viết sáng tạo. Định dạng QAT mới của Gemma hiệu quả cao trên RAM thấp, nhấn mạnh tầm quan trọng của hiệu suất tối ưu.

#LLM #Quantization #AI #LocalLLaMA #Performance #MôHìnhNgônNgữLớn #LượngTửHóa #HiệuSuất

reddit.com/r/LocalLLaMA/commen

2025-11-29

Các phiên bản Qwen3-Next-80B-A3B GGUF mới đã có sẵn! Bao gồm lượng tử hóa imatrix và IQ, cùng với tối ưu hóa MoE, mang lại hiệu suất tốt hơn cho các mô hình LLM cục bộ.
#Qwen3Next #GGUF #LLM #AI #Quantization
#MôHìnhAI #LượngTửHóa #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2025-11-28

Một người dùng trên r/LocalLLaMA thắc mắc về vấn đề lượng tử hóa (quantization) với các mô hình LLM. Cụ thể, mô hình gpt-oss-20B-heretic có phiên bản Q4_K_M (15.9GB) lại lớn hơn Q8_0 (12.1GB), điều này khá bất thường. Nghi ngờ các lớp "M" có thể vẫn ở 32-bit.

#LLM #Quantization #AI #LocalLLaMA #LượngTửHóa #MôHìnhNgônNgữ

reddit.com/r/LocalLLaMA/commen

2025-10-11

Quy tắc chung: mô hình AI lớn lượng tử hóa thường tốt hơn mô hình nhỏ ít lượng tử hóa. Nhưng liệu quy tắc này có đúng khi lượng tử hóa sâu hơn (dưới 4-bit)? Người dùng GLM 4.5 nhận thấy bản 2-bit vẫn rất hiệu quả. Bạn có kinh nghiệm/quy tắc nào khi chọn mô hình lớn/nhỏ với các mức lượng tử hóa khác nhau?

#AI #LLM #Quantization #DeepLearning #MôHìnhNgônNgữ #LượngTửHóa #HọcSâu

reddit.com/r/LocalLLaMA/commen

2025-09-22

Mô hình Qwen3-Next-80B-A3B đã chính thức được lượng tử hóa FP8, giúp giảm dung lượng và tăng tốc độ xử lý AI. Đây là bước tiến quan trọng trong việc tối ưu hóa mô hình ngôn ngữ lớn! 🤖✨

#AI #TríTuệNhânTạo #Qwen #LượngTửHóa #FP8 #MachineLearning #HọcMáy

reddit.com/r/LocalLLaMA/commen

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst