Ivan Fioravanti ᯅ (@ivanfioravanti)
GLM-4.7-Flash-4bit의 MLX 벤치마크 두 번째 결과가 공개되었고, @N8Programs와 @awnihannun의 개선 PR이 main에 병합된 이후의 결과임. M3 Ultra 512 환경에서 측정한 V2는 prefill이 약간 느리지만 텍스트 생성 성능과 메모리 사용량이 크게 개선되었다는 보고입니다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
GLM-4.7-Flash-4bit의 MLX 벤치마크 두 번째 결과가 공개되었고, @N8Programs와 @awnihannun의 개선 PR이 main에 병합된 이후의 결과임. M3 Ultra 512 환경에서 측정한 V2는 prefill이 약간 느리지만 텍스트 생성 성능과 메모리 사용량이 크게 개선되었다는 보고입니다.
Aivan Monceller (@aivandroid)
llama.cpp(ggml_org)가 Anthropic API를 네이티브로 지원하기 시작했다는 개발자 도구 업데이트입니다. 이를 통해 GLM-4.7-Flash( Zai_org )를 Claude Code 내에서 프록시 없이 사용 가능해졌고, UnslothAI의 4비트 양자화 설정을 3090 GPU에서 테스트 중이라는 내용입니다.
https://x.com/aivandroid/status/2014216608462630924
#llama.cpp #anthropic #glm4.7 #quantization #ggml
Sarah Chieng (@SarahChieng)
GLM 4.7이 리더보드 상위권의 오픈소스 모델로 언급되며, 이를 기념해 Cerebras와 @cline이 주최하는 GLM 4.7 가상 해커톤을 안내합니다. 상금 $5K와 Cerebras Code 플랜 상품이 걸려 있고 기술 워크숍과 전 수준 참가자 환영 등 개발자 참여 이벤트입니다.
𝗭𝗲𝗻 𝗠𝗮𝗴𝗻𝗲𝘁𝘀 (@ZenMagnets)
GLM-4.7-Flash의 큰 KV 캐시 문제(FATASS)에 대한 간단한 우회법 발견을 공유합니다. vllm에서 MLA를 활성화하는 한 줄 수정으로 200k 컨텍스트를 180GB 대신 약 10GB로 맞출 수 있어, 단일 32GB 5090 GPU로 GLM-4.7-Flash-NVFP4 전체 200k 컨텍스트 구동이 가능해졌다고 주장합니다. @Zai_org의 의도 대로 MLA 사용을 권장합니다.
Unsloth AI (@UnslothAI)
GLM-4.7-Flash용 GGUF 파일들이 llama.cpp의 최근 버그 수정 이후 출력 품질이 크게 향상되었다고 보고합니다. GGUF들을 재변환 및 업데이트했으며 18GB RAM에서 4비트로 로컬 실행 가능하다고 알립니다. 수정 사항을 반영하려면 모델을 재다운로드하고 @Zai_org가 제안한 추론 파라미터를 사용하라고 권장하며 Hugging Face 링크를 공유했습니다.
https://x.com/UnslothAI/status/2013966866646180345
#glm4.7flash #gguf #llama.cpp #localllm #huggingface
Deli (@deligong)
Claude Code와 GLM-4.7-Flash(Q8_K_XL)를 이용해 llama.cpp 기반으로 Flappy Bird를 재구현했다고 보고합니다. 64GB MacBook Pro(M4)에서 로컬 모델로 실행했으며 속도는 빠르지 않지만 로컬 모델 치고 코드 품질이 매우 뛰어나다고 평가합니다. 로컬 LLM 실용성 및 코드 품질 시연 사례입니다.
⚡️ GLM-4.7-Flash: hỗ trợ ngữ cảnh đầy đủ trên GPU RTX 6000 Pro 96 GB nhờ patch glm4_moe_lite của vLLM, giảm yêu cầu KV cache. Được phát hiện bởi u/ZenMagnets. #AI #MachineLearning #DeepLearning #NLP #GLM4 #vLLM #CôngNghệ #TríTuệNhânTạo
https://www.reddit.com/r/LocalLLaMA/comments/1qj2i4q/docker_config_for_vllm_glm47flash_support_with/
cedric (@cedric_chee)
Zai_org가 GLM-4.7 Flash와 GLM-4.7 (Deep Think)을 비교한 평가: Pelican SVG 성능은 우수하고 Voxel Pagoda도 준수해 속도와 에이전트 능력의 균형을 잘 잡는다고 함. 작성자는 GLM-4.5 Flash를 대체할 것으로 기대하며, 30B-A3B bf16 가중치를 2x96GB RTX Pro 6000에서 구동 중이라고 언급.
EXO Labs (@exolabs)
EXO가 GLM-4.7-Flash를 지원합니다. 4비트·5비트·6비트·8비트 양자화 모델이 MacBook, Mac Mini, Mac Studio에서 빠르게 동작하며, RDMA over Thunderbolt를 통한 맥 간 텐서 병렬 셰어링을 지원해 추가 가속이 가능합니다. 예시로 M4 Max MacBook Pro에서 초당 82 토큰 처리 속도를 기록했습니다.
Q*Satoshi (@AiXsatoshi)
GLM-4.7-Flash가 크기 대비 성능이 좋다는 간단한 평가. 모델의 효율성(성능 대비 사이즈)이 인상적이라는 내용을 짧게 언급함.
https://x.com/AiXsatoshi/status/2013639298755764637
#glm4.7flash #glm #model #performance #ai
Q*Satoshi (@AiXsatoshi)
opencode가 좋다는 평. 초기 인상으로는 잘 다뤄보지 않았지만 실제로는 GLM-4.7-Flash와 연동해 기능한다는 관찰을 공유함. 오픈소스 도구나 프레임워크와 최신 모델의 연계 가능성을 시사하는 짧은 후기성 트윗.
https://x.com/AiXsatoshi/status/2013662146836516905
#opencode #glm4.7flash #model #integration #ai
Hiện tại, triển khai GLM-4.7-Flash trên llama.cpp có vẻ đang bị lỗi, như được thảo luận tại pull request #18936. Sự chênh lệch lớn về logprobs so với vLLM có thể giải thích cho các vấn đề như lặp vòng, suy nghĩ quá mức và trải nghiệm kém gần đây. Cần cập nhật hoặc sửa lỗi sớm để cải thiện hiệu suất.
#llama_cpp #GLM4 #vLLM #AI #logprobs #llm #llama_cpp #GLM4 #vLLM #AI #logprobs #machinelearning
Người dùng báo cáo GLM 4.7 Flash gặp hiện tượng "suy nghĩ quá mức": đầu ra dài, lặp lại, vô nghĩa, đôi khi chạy hàng phút mới cho kết quả. Dù mô hình cho kết quả benchmark ấn tượng, nhưng trải nghiệm thực tế còn nhiều vấn đề. Hiện chưa rõ lỗi nằm ở llama.cpp, vLLM hay bản thân mô hình. Cộng đồng hy vọng bản cập nhật sắp tới sẽ cải thiện. #GLM4.7 #LLM #AI #Overthinking #MôHìnhNgônNgữ #TríTuệNhânTạo
https://www.reddit.com/r/LocalLLaMA/comments/1qiaf8b/glm_47_flash_overthinking/
GLM 4.7 Flash khi gặp prompt “jailbreak” sẽ tự nhận diện và gán là vi phạm, sau đó thực hiện kiểm tra an toàn rồi từ chối hoặc đưa ra câu trả lời ngắn. Điều này cho thấy mô hình có cơ chế phát hiện prompt gian lận nhưng vẫn có thể sinh nội dung không phù hợp nếu prompt được mở rộng hợp lý. #AI #LLM #GLM4.7 #Jailbreak #BảoMật #MôHìnhNgônNgữ
Petri Kuittinen (@KuittinenPetri)
GLM-4.7-Flash(Q4_K_M)에서 LM Studio의 온도 설정(예: 1.0, 0.2, 0.7, 0.8)을 적용하면 모델이 무한 루프에 빠지는 문제가 보고됨. 단순한 텍스트 기반 숫자 맞추기 게임 프롬프트로도 재현된다는 리포트로, 개발·디버깅에 영향을 줄 수 있는 버그 사례임.
https://x.com/KuittinenPetri/status/2013585473172631764
#glm4.7flash #lmstudio #bug #inference
vLLM (@vllm_project)
vLLM이 GLM-4.7-Flash에 대한 Day-0(출시 즉시) 지원을 제공하기 시작했다는 공지. 30B급에서 효율적이고 경량화된 추론을 목표로 하며 코딩·에이전트뿐 아니라 창작, 번역, 장문 컨텍스트 처리에도 적합하다고 설명. 관련 PR이 공개됨.
https://x.com/vllm_project/status/2013421647215407587
#vllm #glm4.7flash #inference #llm
Unsloth AI (@UnslothAI)
GLM-4.7-Flash를 로컬 디바이스에서 실행 가능하다는 발표. 30B급 모델 중 SWE-Bench와 GPQA에서 최고 성능을 기록하며 200K 컨텍스트를 지원해 코딩, 에이전트, 채팅, 추론 작업에 강점. 24GB RAM으로 실행 가능하며 가이드와 GGUF 모델이 공개됨.
Jason (@satolayer2)
Hugging Face 파트너 제공자 Novita Labs가 GLM-4.7-Flash를 이미 배포했으며, 월정액 없이 페이-애즈-유고(pay-as-you-go) 방식으로 이용 가능하다고 발표했습니다. 개발자들이 손쉽게 테스트·빌드·스케일할 수 있도록 즉시 접근 가능한 배포 옵션입니다.
https://x.com/satolayer2/status/2013295151658213778
#glm4.7flash #deployment #novitalabs #huggingface
yags (@yagilb)
GLM-4.7-Flash의 MLX 지원이 LM Studio에 정식으로 추가되었습니다. 해당 통합은 @ivanfioravanti와 @awnihannun의 기여로 이루어졌으며, 개발자들이 LM Studio에서 GLM-4.7-Flash 모델을 바로 사용해 테스트·추론할 수 있게 된 업데이트입니다.
https://x.com/yagilb/status/2013341470988579003
#glm4.7flash #lmstudio #mlx #inference
金のニワトリ (@gosrum)
RTX5090에서 llama-bench로 GLM-4.7-flash의 추론 속도를 측정했더니, 의외로 flash-attn을 켜면 성능이 극도로 느려지는 현상이 확인되었다는 성능 이슈 보고입니다.
https://x.com/gosrum/status/2013415527675306048
#glm4.7flash #llamabench #rtx5090 #flashattn