cedric (@cedric_chee)
로컬에서 Kimi K2.5 모델의 INT4 양자화(quant)를 사용해 8대의 RTX Pro 6000 GPU(8x)로 추론을 수행한 결과를 공유한 트윗입니다. 처리량은 8–40 TPS 범위였고, 고전적 추론 문제(아버지-외과의사 수수께끼)와 단어 세기 과제를 모두 정답으로 풀었으며 각각 약 58초·55초의 사고 시간을 기록했습니다. 로컬 INT4 양자화 성능과 추론 지연/처리량 정보가 핵심입니다.
cedric (@cedric_chee)
로컬에서 Kimi K2.5 모델의 INT4 양자화(quant)를 사용해 8대의 RTX Pro 6000 GPU(8x)로 추론을 수행한 결과를 공유한 트윗입니다. 처리량은 8–40 TPS 범위였고, 고전적 추론 문제(아버지-외과의사 수수께끼)와 단어 세기 과제를 모두 정답으로 풀었으며 각각 약 58초·55초의 사고 시간을 기록했습니다. 로컬 INT4 양자화 성능과 추론 지연/처리량 정보가 핵심입니다.
Mô hình Kimi K2.5 mới từ Moonshot AI gây sốc với 1 nghìn tỷ tham số, chỉ dùng 32B tham số hoạt động mỗi token. Kiến trúc MoE tiên tiến với 384 chuyên gia, chọn top-8 + 1 chuyên gia chung, hỗ trợ INT4 gốc nhờ QAT. Vượt GPT-5 trên Humanity's Last Exam (50.2% vs 41.7%) và gần bằng GPT-5 trong LiveCodeBench (83.1%). Hỗ trợ "tư duy" nội bộ như System 2. Có thể chạy trên 4x H100, mở hướng cho chạy mô hình lớn tại chỗ. #KimiK25 #AI #LLM #MoE #Int4 #Reasoning #TríTuệNhânTạo #AI ViệtNam #MôHìnhNgônNgữ #M
金のニワトリ (@gosrum)
GLM-Image가 4비트(4bit) 양자화 시 느려지는 문제가 있었음. 원인은 INT4로 양자화되어 있었기 때문이며, nf4로 변경하자 처리 속도가 3배 이상 빨라졌다는 실사용 성능 개선 보고.
💡 Snapdragon 6 Gen 4, il nuovo processore di fascia media di Qualcomm
https://gomoot.com/snapdragon-6-gen-4-il-nuovo-processore-di-fascia-media-di-qualcomm/
#5g #blog #bluetooth 5.4 #cpu #gpu #int4 #kryo #lossless #lpddr5 #news #npu #picks #qualcomm #snapdragon6gen4 #tech #tecnologia #wifi6e
Training Transformers with 4-bit Integers
https://arxiv.org/abs/2306.11987
... we propose a training method for transformers with matrix multiplications implemented with the INT4 arithmetic. Training with an ultra-low INT4 precision is challenging ... we carefully analyze the specific structures of activation & gradients in transformers to propose dedicated quantizers for them. For forward propagation, we identify ...
#ML #MachineLearning #parametrization #INT4 #NeuralNetworks #transformers #matrices