#glm4

Z.ai (@Zai_org)

GLM-5-Turbo를 대상으로 한 GLM 코딩 플랜의 사용 한도가 3배로 상향되었다. 비혼잡 시간대(매일 2–6 AM ET 제외)에는 GLM-4.7과 동등한 고용량 처리 용량을 제공하며, 해당 프로모션은 4월 30일에 종료된다는 공지.

x.com/Zai_org/status/203323396

#glm5turbo #glmcodingplan #glm4.7 #zai

1PercentBetterToday (@1PercentBetterT)

GLM Pro 주간 쿼터가 리셋된 지 얼마 안 되어 이미 14%를 사용했고, GLM-4.7로 전환했음에도 토큰 소진이 빠르다고 보고했습니다(피크 때 3배, 비피크 때 2배). 작성자는 @Zai_org에 환불 및 쿼터 관련 문의를 제기했습니다.

x.com/1PercentBetterT/status/2

#glm #glm4.7 #quota #tokens #zai_org

AGI-Eval (@AGI_Evals)

수학 추론 벤치마크 AMO-Bench의 새 리더보드가 공개됨. GLM 4.7이 62.4% 정확도로 오픈소스 SOTA 기록을 달성했고, Qwen3-Max-Thinking이 65.1%로 1위를 차지하며 Gemini 3 Pro(63.1%)를 능가함. 오픈소스 모델들의 빠른 추론 성능 향상이 주목받음.

x.com/AGI_Evals/status/2026296

#glm4.7 #qwen3 #benchmark #amobench #sota

AISatoshi (@AiXsatoshi)

GLM-4.7-Flash가 성능 면에서 만족스럽고 작업을 빠르게 처리해 준다는 긍정적 평가를 공유하며, 곧 출시될 것으로 기대되는 Qwen3.5에도 기대감을 표하고 있습니다.

x.com/AiXsatoshi/status/202331

#glm4.7 #glm #qwen3.5 #flash

DeepInfra (@DeepInfra)

DeepInfra가 GLM-4.7-Flash 벤치에서 @ArtificialAnlys를 제치고 처리량·지연·가격 면에서 우수한 성능을 주장했습니다. 보고된 수치: 105.7 tok/s, 0.24s TTFT, $0.14/1M. 발표자는 더 나은 커널이 동일 예산으로 더 높은 처리량을 준다고 강조해 AI 추론 인프라 최적화와 비용 효율성 관련 중요한 업데이트로 볼 수 있습니다.

x.com/DeepInfra/status/2019225

#deepinfra #glm4.7 #inference #benchmarking

Z.ai (@Zai_org)

GLM-4.5-Flash가 출시 14일 만에 Hugging Face에서 1백만 회 이상의 다운로드를 기록했습니다. 오픈소스 모델의 빠른 확산과 글로벌 개발자 커뮤니티의 활발한 채택을 보여주는 지표로 해석됩니다.

x.com/Zai_org/status/201887586

#glm4.5 #glm #huggingface #opensource #downloads

Cerebras (@cerebras)

GLM 4.7은 강력한 오픈소스 코딩 모델 중 하나이지만 많은 개발자가 올바르게 프롬프트하지 못한다는 지적과 함께, 모델 활용을 극대화하기 위한 10가지 규칙을 제시합니다. 예시로 지시를 앞부분에 배치(강한 최신성 편향)하고, 'must' 같은 확고한 표현을 사용하는 방법 등을 권장하고 있습니다.

x.com/cerebras/status/20173193

#glm #glm4.7 #prompting #codingmodel

Unsloth AI (@UnslothAI)

Claude Code를 이용해 인간 개입 없이 LLM을 학습시키는 데 성공했다고 보고하며, Claude Code와 OpenAI Codex를 활용한 로컬 LLM 설정 및 자동 학습 가이드를 공개했습니다. GLM-4.7-Flash를 서버에 연결해 에이전트형 코딩을 로컬에서 시작하라는 안내와 unsloth.ai의 가이드 링크를 포함합니다.

x.com/UnslothAI/status/2016901

#claudecode #openaicodex #glm4.7flash #llm #agentic

Zixuan Li (@ZixuanLi_)

GLM-4.7이 출시된 지 38일밖에 되지 않았지만 AI 업계의 상황이 급변해 수년이 지난 것처럼 느껴진다는 소감입니다. 작성자는 매일이 흥분과 불안의 소용돌이라며 빠르게 변하는 모델 출시·생태계의 변동성을 언급하고 있습니다.

x.com/ZixuanLi_/status/2017145

#glm4.7 #glm #llm #ai

Bindu Reddy (@bindureddy)

미국에서 오픈소스 모델 'Trinity Large'을 공개했다는 소식. 게시자는 이를 GLM 4.5와 비교하며 리더보드에 곧 올릴 예정이라고 밝히고, 미국의 본격 참여를 환영하는 취지의 내용.

x.com/bindureddy/status/201631

#trinitylarge #opensource #glm4.5 #leaderboard

Norbert Schmidt (@nopmobiel)

작성자는 ollama 출시(모델 glm-4.7)를 활용해 LTX와 MLX-video로 시나리오 기반 영상을 제작했다고 알립니다. 지역 AI 생성(Generative AI) 혁명을 이끄는 몇 사람을 주제로 한 짧은 영화이며, 영감은 @Prince_Canuma와 @ivanfioravanti에서 받았고 Apple M3 Max 128에서 약 2시간 걸려 만들었다고 설명합니다.

x.com/nopmobiel/status/2016098

#ollama #glm4.7 #mlxvideo #ltx #m3max

pyk (@sepyke)

GLM 4.7 모델이 긍정적으로 평가되었으며, 사용자는 Zai_org의 'GLM Coding Pro' 요금제에서 할당량 이하로 사용 중임에도 불구하고 레이트 리밋(rate limits)에 자주 걸리는 문제가 있다고 보고했습니다. 모델 성능은 좋지만 서비스 제한 관련 실무 이슈가 관찰됩니다.

x.com/sepyke/status/2015683941

#glm #glm4.7 #zai #ratelimits

2026-01-24

Ra mắt GLM 4.7 Flash bản không cản (uncensored) với 2 phiên bản: Cân bằng (Balanced) phù hợp lập trình tác nhân, và Mạnh mẽ (Aggressive) cho mọi chủ đề khác. Dưới 3B tham số hoạt động, hỗ trợ ngữ cảnh 200K, tốc độ suy luận nhanh. Tương thích GGUF, chạy tốt trên llama.cpp, LM Studio, Jan. Không tương thích Ollama do lỗi mẫu trò chuyện. #LLM #AI #GLM4.7 #LocalLLaMA #TríTuệNhânTạo #AIChatbot

reddit.com/r/LocalLLaMA/commen

2026-01-24

Tuần này Hugging Face ra mắt nhiều mô hình AI ấn tượng: GLM-4.7 (358B) đa ngôn ngữ, AgentCPM cho agent thông minh, VibeVoice-ASR nhận diện giọng nói chất lượng cao, Qwen3 TTS, Step3-VL đa phương tiện, FLUX.2 Klein tạo ảnh, LTX-2 tạo video từ ảnh và Chroma (6B) đa dạng đa phương thức. Cập nhật mới nhất cho phát triển AI toàn diện.
#AI #HuggingFace #MachineLearning #GLM4 #TTS #ASR #TextToImage #VideoGeneration #Multimodal #TríTuệNhânTạo #HọcMáy #XửLýNgônNgữ #NhậnDiệnGiọngNói #TạoẢnhAI #TạoVideoA

2026-01-24

Chạy mô hình MoE (GLM-4, GPT-OSS) trên CPU/RAM: Hiệu năng phụ thuộc vào băng thông bộ nhớ, không phải dung lượng. Với DDR5-6000 (hiệu dụng ~35GB/s), tốc độ đạt 20.5 tokens/giây (GLM-4.7-Flash) và 13.7 tokens/giây (GPT OSS 120B). Cần tối ưu BIOS (XMP, PL1/PL2 219W), làm mát tốt, undervolt và compile `llama.cpp` đúng cấu hình (Raptor Lake). Dùng `taskset` để chạy trên P-cores, tận dụng GPU để tăng tốc.

#AI #LLM #MoE #GLM4 #GPTOSS #CPUInference #llama.cpp #MachineLearning #TríTuệNhânTạo #MôHìnhN

Ivan Fioravanti ᯅ (@ivanfioravanti)

GLM-4.7-Flash-4bit의 MLX 벤치마크 두 번째 결과가 공개되었고, @N8Programs와 @awnihannun의 개선 PR이 main에 병합된 이후의 결과임. M3 Ultra 512 환경에서 측정한 V2는 prefill이 약간 느리지만 텍스트 생성 성능과 메모리 사용량이 크게 개선되었다는 보고입니다.

x.com/ivanfioravanti/status/20

#glm #glm4.7 #mlx #benchmark #quantization

Aivan Monceller (@aivandroid)

llama.cpp(ggml_org)가 Anthropic API를 네이티브로 지원하기 시작했다는 개발자 도구 업데이트입니다. 이를 통해 GLM-4.7-Flash( Zai_org )를 Claude Code 내에서 프록시 없이 사용 가능해졌고, UnslothAI의 4비트 양자화 설정을 3090 GPU에서 테스트 중이라는 내용입니다.

x.com/aivandroid/status/201421

#llama.cpp #anthropic #glm4.7 #quantization #ggml

Sarah Chieng (@SarahChieng)

GLM 4.7이 리더보드 상위권의 오픈소스 모델로 언급되며, 이를 기념해 Cerebras와 @cline이 주최하는 GLM 4.7 가상 해커톤을 안내합니다. 상금 $5K와 Cerebras Code 플랜 상품이 걸려 있고 기술 워크숍과 전 수준 참가자 환영 등 개발자 참여 이벤트입니다.

x.com/SarahChieng/status/20140

#glm4.7 #opensource #cerebras #hackathon

𝗭𝗲𝗻 𝗠𝗮𝗴𝗻𝗲𝘁𝘀 (@ZenMagnets)

GLM-4.7-Flash의 큰 KV 캐시 문제(FATASS)에 대한 간단한 우회법 발견을 공유합니다. vllm에서 MLA를 활성화하는 한 줄 수정으로 200k 컨텍스트를 180GB 대신 약 10GB로 맞출 수 있어, 단일 32GB 5090 GPU로 GLM-4.7-Flash-NVFP4 전체 200k 컨텍스트 구동이 가능해졌다고 주장합니다. @Zai_org의 의도 대로 MLA 사용을 권장합니다.

x.com/ZenMagnets/status/201383

#glm4.7flash #vllm #kvcache #mla #gpu

Unsloth AI (@UnslothAI)

GLM-4.7-Flash용 GGUF 파일들이 llama.cpp의 최근 버그 수정 이후 출력 품질이 크게 향상되었다고 보고합니다. GGUF들을 재변환 및 업데이트했으며 18GB RAM에서 4비트로 로컬 실행 가능하다고 알립니다. 수정 사항을 반영하려면 모델을 재다운로드하고 @Zai_org가 제안한 추론 파라미터를 사용하라고 권장하며 Hugging Face 링크를 공유했습니다.

x.com/UnslothAI/status/2013966

#glm4.7flash #gguf #llama.cpp #localllm #huggingface

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst