#quantization

2026-03-16

#openSUSE just released Cavil-Qwen3.5-4B; an #opensource AI model that automates #legal compliance checks for #software licenses and copyright notices. Runs on modest hardware thanks to #GGUF #quantization. #AI #Linux news.opensuse.org/2026/03/16/o

AISatoshi (@AiXsatoshi)

GLM-5-UD-Q4_K_XL 모델을 자택 단일 노드에서 20 tok/s, 2노드에서 27 tok/s로 측정했다는 벤치마크 결과 공유. '터보' 변형도 시도해보고 싶다는 코멘트가 포함되어 있습니다.

x.com/AiXsatoshi/status/203339

#glm5 #benchmark #inference #quantization

Prince Canuma (@Prince_Canuma)

mlx-embeddings v0.1.0 출시: 새 모델로 Alibaba의 Qwen3 VL Embedding 및 Reranker와 ColDefics3(LoRA 어댑터 및 ColVision 프로세서 포함)이 추가되었습니다. NVFP4·MXFP4·MXFP8 양자화 지원이 도입되었고, Gemma3의 양방향 모델 임베딩 품질 수정이 포함됩니다.

x.com/Prince_Canuma/status/203

#mlxembeddings #embeddings #qwen3 #coldefics3 #quantization

AISatoshi (@AiXsatoshi)

DeepSeek-V4의 출시가 임박한 것으로 보이며, 트윗 작성자는 양자화 방식이 FP8이 아닌 INT8로 보인다고 언급하고 있습니다. 이는 모델 경량화·추론 효율 관점에서 중요한 설계 선택으로 보이며, INT8 채택 시 성능·호환성·하드웨어 요구사항에 대한 관심이 커질 수 있습니다.

x.com/AiXsatoshi/status/203174

#deepseekv4 #int8 #quantization #model

Sudo su (@sudoingX)

같은 GPU(5060 Ti 16GB)에서 모델과 양자화 설정을 바꿔 토큰 처리 속도가 12 tok/s에서 54 tok/s로 향상되었다고 보고합니다. 구성은 Qwen 3.5 9B Q4_K_XL, 컨텍스트 길이 262K, ‘thinking mode’ 활성화, 전체 모델이 GPU에 올라간 상태이며 사용된 플래그(-c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0)도 공개되었습니다. 하드웨어에 맞는 모델 선택과 양자화의 중요성을 강조합니다.

x.com/sudoingX/status/20310374

#qwen #quantization #gpu #llm #performance

Ivan Fioravanti ᯅ (@ivanfioravanti)

Qwen 3.5 소형 모델용 ParoQuant이 공개되었음을 알리는 게시물로, 작성자는 내일 직접 테스트해볼 계획이라고 밝힘. 소형 모델 대상 양자화/최적화 도구의 출시 소식으로 해석됨.

x.com/ivanfioravanti/status/20

#paroquant #qwen3.5 #quantization #smallmodels

N8 Programs (@N8Programs)

Alibaba의 Qwen 모델용 GPTQ Int4 가중치를 dequant/requant 없이 직접 MLX 형식으로 변환하여 MLX 런타임과 호환되도록 패킹함. 결과물은 동일한 Hugging Face(HF) 가중치를 기반으로 하나 Qwen의 양자화는 어텐션 레이어와 임베딩을 비양자화로 남겨 표준 MLX 4비트 양자화보다 파일 크기가 약간 더 큼.

x.com/N8Programs/status/202896

#qwen #gptq #quantization #mlx #huggingface

Sudo su (@sudoingX)

RTX 3090을 하나에서 두 대로 늘려도 hermes 4.3 36B 모델의 생성 속도는 거의 변하지 않음(1x 35.3 tok/s, 2x 35.53 tok/s). 추가 VRAM은 속도가 아닌 컨텍스트 용량으로 사용되며, 단일 3090에서 Q4_K_M 양자화 기준 모델은 21.8GB를 차지해 최대 32K 컨텍스트(실사용 약 22K)를 확보할 수 있음.

x.com/sudoingX/status/20289005

#gpu #llm #quantization #hermes #rtx3090

AISatoshi (@AiXsatoshi)

Qwen3.5-2B-Q4는 대부분 성공하지 못해 2B와 4B 모델 사이의 성능 경계가 뚜렷하다고 평가. 작성자는 이 지점이 현 시점에서의 한계일 수 있다고 관찰함.

x.com/AiXsatoshi/status/202850

#qwen #llm #modelscaling #quantization

AISatoshi (@AiXsatoshi)

Qwen3.5-4B-Q4가 테트리스 생성 테스트에서 80% 이상의 성공률을 기록했다고 보고. 해당 파라미터 규모(4B)에서 보기 드문 높은 정확도로 평가되며, 게시자는 하이브리드 어텐션 SLM이 새로운 시대를 열고 있다고 언급함.

x.com/AiXsatoshi/status/202850

#qwen #llm #slm #quantization #tetris

金のニワトリ (@gosrum)

Qwen3.5의 여러 크기(0.8B, 2B, 4B, 9B, 모두 UD-Q4_K_XL)에 대한 llama-bench 결과(RTX5090)를 보고. 처리량: 0.8B prefill ~35000 tps / decord ~435 tps, 2B prefill ~26000 / decord ~360, 4B prefill ~13000 / decord ~213, 9B prefill ~9000 / decord ~163.

x.com/gosrum/status/2028464096

#qwen #llamabench #quantization #rtx5090

Ivan Fioravanti ᯅ (@ivanfioravanti)

Qwen3.5 벤치마크 테스트를 업데이트 중이라는 공지입니다. @N8Programs의 피드백과 @awnihannun의 도움을 받아 진행 중이며, 가상환경(venv) 문제로 인해 M3 Ultra에서 Qwen3.5-122B-A10B-4bit가 동일하게 잘못된(느린) 결과를 낸 현상을 발견했고, 현재 테스트를 다시 실행하고 있다고 보고하고 있습니다.

x.com/ivanfioravanti/status/20

#qwen #benchmark #m3ultra #quantization #venv

Qwen (@Alibaba_Qwen)

Qwen3.5 시리즈가 4비트 가중치 및 KV 캐시 양자화(quantization)에서도 거의 손실 없는 정확도를 유지한다고 발표되었습니다. 장문 처리 성능에서 Qwen3.5-27B는 80만+ 컨텍스트를 지원하며, Qwen3.5-35B-A3B는 소비자용 32GB GPU에서 100만 컨텍스트를 넘기고, Qwen3.5-122B-A10B도 높은 장문 능력을 지원한다고 명시되어 장기 컨텍스트와 저비트 양자화 양쪽에서 주목할 만한 진전입니다.

x.com/Alibaba_Qwen/status/2026

#qwen #llm #quantization #longcontext

AISatoshi (@AiXsatoshi)

RTX A6000 GPU 4장 구성의 머신에서 MiniMax-M2 시리즈 모델을 4bit 환경으로 실험한 결과, 약 70토큰/초의 속도를 달성했다는 보고다. 또한 병렬 추론 시 초당 1000토큰 이상 처리 가능성도 언급되어 GPU 최적화 및 모델 압축 기술 진전이 확인된다.

x.com/AiXsatoshi/status/202471

#gpu #inference #performance #quantization #llm

AISatoshi (@AiXsatoshi)

TokyoTech-LLM 팀이 개발한 'Qwen3-Swallow-32B-RL-v0.2-AWQ-INT4' 모델을 새로운 머신에서 테스트했다는 내용이다. RL 기반 학습과 양자화 기술(AWQ, INT4)을 적용한 Qwen3 계열 모델로, 고성능 LLM 구현의 실제 응용에 대한 예시를 보여준다.

x.com/AiXsatoshi/status/202475

#llm #qwen3 #quantization #rl #tokyotech

Alessandro (@a_lamparelli)

mlx_lm.generate 명령으로 mlx-community의 Qwen3-8B-4bit 모델을 로컬에서 실행해 '/no_think Explain quantum computing in 3 sentences.' 프롬프트로 양자컴퓨팅 설명을 받아본 경험 공유. 로컬 저비트 모델 실험 사례로, 성능 체험 후 Mac mini 구매 고려 중이라는 개인적 소감 포함.

x.com/a_lamparelli/status/2024

#qwen #llm #quantization #mlx

Clément Pillette (@ClementPillette)

kim-dev 72B를 BF16으로 2 GPU 병렬화하는 시도는 다소 무리였고, 대신 AWQ 4-bit 양자화를 시도한다고 보고합니다. MLX 팀(특히 @ivanfioravanti) 덕분에 Mac Studio에서 모델 구동이 훨씬 수월해졌고, Minimax 2.5는 8비트에서 초당 30tps로 잘 동작하고 있다는 실무적 성과를 공유한 트윗입니다.

x.com/ClementPillette/status/2

#quantization #awq #llm #modeloptimization #bf16

puwaer (@puwaer)

검열 해제(안전장치 제거)된 대형 모델을 공개했다는 발표. Qwen3 next 80b a3b를 기반으로 한 비교적 큰 모델이며 2bit, 4bit, 8bit 양자화(quantization) 버전까지 생성해 Hugging Face에 배포 링크를 올림(공개 모델/gguf 등).

x.com/puwaer/status/2023993030

#qwen3 #modelrelease #huggingface #quantization #uncensored

Ivan Fioravanti ᯅ (@ivanfioravanti)

MLX 4비트 양자화(4bit quantization)가 대형 모델에서 훨씬 잘 작동한다는 결과를 보고. 예시로 Qwen3.5-397B-A17B-4bit에서 Perplexity 4.20(±0.03)을 기록했다는 수치가 제시되었다.

x.com/ivanfioravanti/status/20

#quantization #mlx #qwen #llm

Pedro Cuenca (@pcuenq)

Qwen 3.5 공개 소식으로, 최첨단 800GB 모델이며 MLX로 로컬에서 Q4 양자화를 사용해 실행할 수 있고 약 225GB의 RAM을 사용한다고 알리고 있습니다. 대형 로컬 실행 가능성이 강조된 발표입니다.

x.com/pcuenq/status/2023369902

#qwen #llm #mlx #quantization #local

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst