#glm

Bindu Reddy (@bindureddy)

분산형·오픈소스 AI를 올해 더 강하게 추진해야 한다는 주장과 실용 권장 모델 제시: 에이전트형 코딩용 Kimi·GLM, 일상적 사용용 Deepseek, 베이스 파인튜닝용 Qwen을 시도해보라 권고. 가능한 경우 개인 컴퓨터에 소형 모델을 띄워보라고 권장.

x.com/bindureddy/status/201540

#opensource #decentralizedai #qwen #glm #deepseek

2026-01-25

GLM 4.7 Flash loại bỏ V trong KV cache → giảm tiêu thụ VRAM hàng GB, cho phép chạy ngữ cảnh dài hơn trên cùng phần cứng. #AI #MachineLearning #GLM #VRAM #AIVietnam #CôngNghệ

github.com/ggml-org/llama.cpp/

2026-01-25

🔍 Đánh giá nhanh: Claude Code kết hợp Ollama so sánh mô hình Opus 4.5 và GLM 4.7. Thử nghiệm tập trung vào tốc độ phản hồi và chất lượng đầu ra, cho thấy sự chênh lệch đáng chú ý giữa hai phiên bản. #AI #MachineLearning #Opus #GLM #ClaudeCode #Ollama #TríTuệNhânTạo #HọcMáy

reddit.com/r/LocalLLaMA/commen

2026-01-24

GLM 4.7 Flash trên RTX 5090 cho tốc độ 150 token / s ban đầu, nhưng sau ~10k token tốc độ nhanh chóng giảm, khác với các mô hình khác. Người dùng đã dùng settings đề xuất, quant Q6, llama.cpp và LMStudio, nhưng vẫn chậm. Có bản vá ik_llama.cpp giảm slowdown nhưng chưa biết cách compile. Đang tìm engine (vLLM…) không bị giảm tốc. Model vẫn rất tốt! #AI #LLM #GLM #Engine #CôngNghệ #MôHìnhAI #OpenSource

reddit.com/r/LocalLLaMA/commen

Ivan Fioravanti ᯅ (@ivanfioravanti)

GLM-4.7-Flash-4bit의 MLX 벤치마크 두 번째 결과가 공개되었고, @N8Programs와 @awnihannun의 개선 PR이 main에 병합된 이후의 결과임. M3 Ultra 512 환경에서 측정한 V2는 prefill이 약간 느리지만 텍스트 생성 성능과 메모리 사용량이 크게 개선되었다는 보고입니다.

x.com/ivanfioravanti/status/20

#glm #glm4.7 #mlx #benchmark #quantization

jeongskjeongsk
2026-01-22

ClaudeCode에서 GLM 모델의 실시간 사용량을 한눈에 확인할 수 있는 statusline 플러그인. 📊

✅ 토큰 사용량 실시간 모니터링
✅ 5초마다 자동 갱신

이제 터미널 하단에서 GLM 모델 사용량 걱정 없이 코딩에 집중하세요! 💻✨

🔗 github.com/jeongsk/glm-coding-

2026-01-22

Finally, I can run GLM-4.7 Flash with ~57k context on 2 RTX GPUs using these params 👇
If anyone gets better context / perf / VRAM efficiency or has tips (KV cache, TP, scheduling…), I’m all ears.
Always curious to optimize.
-------
J’arrive à lancer GLM-4.7 Flash avec ~57k de contexte sur 2 RTX avec ces params 👇
Si quelqu’un arrive à faire mieux niveau contexte / perf / VRAM ou a des tips (KV cache, TP, sched…), je suis preneur.
Toujours curieux d’optimiser
#vLLM #GLM-4.7 #llm #inference

docker params for glm 4.7 flash

金のニワトリ (@gosrum)

Claude Code, GLM-4.7, Remotion Skills를 동일한 프롬프트로 비교 테스트한 내용입니다. 결과에서 GLM-4.7은 순수한 디자인 감각 면에서는 상대적으로 불리했고, 일부 출력 표시가 이상한 부분이 있다는 평가입니다. 여러 모델·스킬 간 퍼포먼스 비교 사례입니다.

x.com/gosrum/status/2014311324

#modelevaluation #glm #claudecode #remotion

2026-01-22

🔧 Hướng dẫn chi tiết chạy mô hình GLM‑4.7‑Flash trên localhost bằng llama.cpp (CLI hoặc Docker), thiết lập tự động giải phóng GPU khi idle, cấu hình đa mô hình và tích hợp Claude Code/Codex CLI. Thực hành ngay để thay thế API Anthropic! #AI #LLM #llamacpp #GLM #ClaudeCode #CôngNghệ #Vietnamese

reddit.com/r/LocalLLaMA/commen

Unsloth AI (@UnslothAI)

GLM-4.7-Flash GGUF 파일이 llama.cpp의 최근 버그 수정 후 출력 품질이 크게 개선되어 GGUF를 재변환 및 업데이트함. 로컬에서 4-bit로 18GB RAM으로 실행 가능. 수정 적용을 위해 업데이트된 GGUFs를 재다운로드하고 @Zai_org가 제시한 추론 파라미터를 사용할 것을 권장.

x.com/UnslothAI/status/2013966

#glm #gguf #llamacpp #huggingface #modeloptimization

2026-01-21

🔧 8 GPU AMD MI50 32GB cho local inference: MiniMax‑M2.1 (AWQ 4‑bit) đạt 26.8 token/s, GLM 4.7 đạt 15.6 token/s. Giá GPU ≈ 880 USD (256 GB VRAM), công suất 280 W (idle) – 1200 W (inference). Mục tiêu: giải pháp nhanh, chi phí thấp cho AI nội bộ. Cảm ơn cộng đồng mở! #AI #LocalLLM #AMD #GPU #MiniMax #GLM #CôngNghệ #Vietnam

reddit.com/r/LocalLLaMA/commen

cedric (@cedric_chee)

Zai_org가 GLM-4.7 Flash와 GLM-4.7 (Deep Think)을 비교한 평가: Pelican SVG 성능은 우수하고 Voxel Pagoda도 준수해 속도와 에이전트 능력의 균형을 잘 잡는다고 함. 작성자는 GLM-4.5 Flash를 대체할 것으로 기대하며, 30B-A3B bf16 가중치를 2x96GB RTX Pro 6000에서 구동 중이라고 언급.

x.com/cedric_chee/status/20138

#glm #glm4.7 #models #gpu

2026-01-21

GLM-4-32B-0414 nổi bật với chỉ **2 đầu KV**, giúp tiết kiệm đáng kể bộ nhớ cache KV nhờ sử dụng GQA. Tiếc rằng GLM-4.7-Flash đã loại bỏ tính năng này, làm giảm hiệu quả tối ưu hóa bộ nhớ. #AI #LLM #GLM #KVCache #GQA #TríTuệNhânTạo #MôHìnhNgônNgữ #AIoptimization

reddit.com/r/LocalLLaMA/commen

Alex Cheema - e/acc (@alexocheema)

GLM-4.7-Flash를 4대의 M4 Pro Mac Mini에서 @exolabs를 통해 구동한 벤치마크 보고입니다. 텐서 병렬화에 RDMA over Thunderbolt와 MLX 백엔드를 사용해 초당 100토큰을 처리하며, 최적화를 통해 동일 구성에서 약 200토큰/초를 목표로 하고 있다고 합니다. Apple Silicon 기반 소형 클러스터에서의 LLM 성능 최적화 사례입니다.

x.com/alexocheema/status/20136

#glm #macmini #exolabs #rdma #llm

[Show GN: SwiftCast - Claude Code에서 AI 프로바이더 전환 및 사용량 모니터링 도구

SwiftCast는 Claude Code 사용 시 Anthropic API와 GLM(Z.AI) 간 실시간 전환이 가능한 데스크톱 앱으로, 토큰 사용량 모니터링과 다국어 지원을 제공합니다. Tauri 2.0, React, Rust로 개발되었으며, macOS, Windows, Linux를 지원하는 오픈소스 프로젝트입니다.

news.hada.io/topic?id=26006

#ai #anthropic #glm #opensource #desktopapp

Q*Satoshi (@AiXsatoshi)

GLM-4.7-Flash가 크기 대비 성능이 좋다는 간단한 평가. 모델의 효율성(성능 대비 사이즈)이 인상적이라는 내용을 짧게 언급함.

x.com/AiXsatoshi/status/201363

#glm4.7flash #glm #model #performance #ai

Alex Cheema - e/acc (@alexocheema)

GLM-4.7-Flash를 4대의 M4 Pro Mac Mini에서 Exolabs를 통해 실행 중이라는 보고. Thunderbolt 기반 RDMA와 MLX 백엔드를 활용한 텐서 병렬화로 초당 약 100토큰 처리 성능을 기록하며, Exolabs에서 최적화를 진행해 동일 구성에서 약 200 tok/sec 달성을 목표로 하고 있음.

x.com/alexocheema/status/20136

#glm #macmini #exolabs #rdma #tensorparallel

2026-01-20

NGƯỜI DÙNG GẶP VẤN ĐỀ KHI CHẠY GLM 4.7 Flash TRÊN GPU — dù có 32GB VRAM (3090 + 3050), model vẫn chạy trên CPU. Dù đã thiết lập --n-gpu-layers 999 và cấu hình GPU chính, hệ thống chỉ sử dụng 20GB VRAM trên 3090, còn CPU đầy tải. Cần hỗ trợ tối ưu hóa để đẩy toàn bộ tác vụ vào GPU. #AI #LLM #GPU #Inference #LocalLLM #GLM #AI #TríTuệNhânTạo #MôHìnhNgônNgữ #GPU #Inference

reddit.com/r/LocalLLaMA/commen

parth (@parthsareen)

새로운 모델 릴리스 'glm-4.7 flash'가 공개되었음을 알리는 트윗으로, 작성자는 해당 릴리스를 매우 인상적이라고 표현하고 있습니다. GLM 계열의 최신 변종 출시 소식으로 모델 업데이트·성능 향상 가능성을 시사합니다.

x.com/parthsareen/status/20133

#glm #modelrelease #llm #flash

金のニワトリ (@gosrum)

원하던 기능이라는 내용으로, 레이트 리밋으로 인해 opus 4.5를 쓸 수 없을 때 GLM 등 다른 모델로 작업을 넘기고, 만약 결과가 만족스럽지 않으면 opus가 다시 사용 가능해졌을 때 git 포크와 함께 원상복구(롤백)할 수 있게 하는 워크플로우를 환영하는 내용입니다.

x.com/gosrum/status/2013392682

#opus4.5 #glm #ratelimit #modelfallback #git

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst