Lmst

#tensorparallel

Alex Cheema - e/acc (@alexocheema)

GLM-4.7-Flash를 4대의 M4 Pro Mac Mini에서 Exolabs를 통해 실행 중이라는 보고. Thunderbolt 기반 RDMA와 MLX 백엔드를 활용한 텐서 병렬화로 초당 약 100토큰 처리 성능을 기록하며, Exolabs에서 최적화를 진행해 동일 구성에서 약 200 tok/sec 달성을 목표로 하고 있음.

https://x.com/alexocheema/status/2013694573910937980

#glm #macmini #exolabs #rdma #tensorparallel

Bài hỏi về việc sử dụng Tensor Parallel (TP) khi không tất cả GPU là đồng loại. Người dùng muốn biết liệu có thể chia 50% tải cho RTX 6000 và 50% cho 4x RTX 3090 không? Đây là cách tiết kiệm khi chưa có GPU thêm. #TensorParallel #GPU #LocalLLaMA #TốiưuHệThống #TensorParallel #GPU #LocalLLaMA #OptimizeSystem

https://www.reddit.com/r/LocalLLaMA/comments/1pt0vbz/tensor_parallel_with_some_gpu_but_not_all/

Strix Halo thử nghiệm batching với tensor parallel và pipeline parallel trên vllm. Kết quả cho thấy TP (tensor parallel) cho hiệu năng tốt hơn PP (pipeline parallel). #AI #LLM #LocalLLaMA #StrixHalo #TensorParallel #PipelineParallel #TríTuệNhânTạo #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1p8nped/strix_halo_batching_with_tensor_parallel_and/

Client Info

Server: https://mastodon.social

Version: 2025.07

Repository: https://github.com/cyevgeniy/lmst