Sebastian Raschka (@rasbt)
Ch08 노트북(Reasoning-from-scratch 리포지토리)이 GitHub에 공개되었습니다. LLM을 대상으로 한 'hard distillation' 구현 예제 코드로, 어떤 LLM에도 적용 가능한 증류 기법을 다루며 서비스 약관 준수를 명시합니다. 실습용 코드와 챕터 자료가 포함되어 있어 연구자·개발자에게 유용한 오픈소스 리소스입니다.
Sebastian Raschka (@rasbt)
Ch08 노트북(Reasoning-from-scratch 리포지토리)이 GitHub에 공개되었습니다. LLM을 대상으로 한 'hard distillation' 구현 예제 코드로, 어떤 LLM에도 적용 가능한 증류 기법을 다루며 서비스 약관 준수를 명시합니다. 실습용 코드와 챕터 자료가 포함되어 있어 연구자·개발자에게 유용한 오픈소스 리소스입니다.
New research shows KV‑cache compaction can slash LLM memory usage by up to 50× while preserving quality. With chunked processing and attention‑matching tricks, models like Llama 3.1 and Qwen‑3 handle far longer contexts—great news for open‑source and enterprise workloads. Dive into the benchmarks! #KVCaching #LLMMemory #LongContexts #ModelCompression
🔗 https://aidailypost.com/news/kv-cache-compaction-cuts-llm-memory-50-chunked-processing-long
TechRadar (@techradar)
Multiverse가 OpenAI 언어 모델을 압축한 새로운 모델을 출시했습니다. 이 모델은 메모리 요구량을 줄이고 AI 인프라 비용을 낮추도록 설계되어 대규모 배포와 비용 최적화에 기여할 수 있습니다.
https://x.com/techradar/status/2029005031559856507
#multiverse #openai #modelcompression #llm #aiinfrastructure
fly51fly (@fly51fly)
Mila 오타와 AI 연구소 연구진이 DNA 시퀀스를 다루는 장문 컨텍스트 모델링을 위한 'GeneZip'이라는 영역 기반 압축 방법을 발표했습니다. 이 연구는 생명정보학 및 생물학 데이터 분석에서 AI 모델의 효율성을 향상시킬 새로운 접근법으로 평가됩니다.
fly51fly (@fly51fly)
Graz 공과대학교 연구진이 'Cut Less, Fold More'라는 제목의 논문을 통해 투영 기하학 관점에서 모델 압축 기법을 제시했습니다. 이 연구는 AI 모델의 크기를 줄이면서도 성능을 유지하거나 향상시키는 새로운 접근법을 소개하며, 효율적인 경량 AI 모델 개발에 기여할 수 있습니다.
Christopher READ PINNED (@Thee_BlackMamba)
작성자는 GPT-2 모델을 원래 550MB에서 수 KB로 극단적으로 압축하여 추론을 실행했다고 주장합니다. 현재는 구조적으로 그럴듯한 단어를 출력할 수 있으나 의미 학습이 필요해 일관된 문장 생성을 위해 추가 훈련이 요구된다고 설명하며, Andrej Karpathy를 멘션했습니다.
Akshay (@akshay_pachaar)
TinyLoRA라는 접근을 소개하며 LoRA를 단 1개 파라미터로 축소했다고 알림. LoRA의 극단적 경량화·파라미터 효율성에 대한 새로운 연구·기술적 시도로, 저자원 환경에서의 모델 적응·배포에 영향이 있을 수 있음.
Python Trending (@pythontrending)
AngelSlim이라는 모델 압축 툴킷이 공개되었습니다. 사용성과 포괄성, 효율성 향상을 목표로 설계된 도구로, 모델 경량화·최적화 워크플로를 지원하는 개발자용 툴킷이라는 점이 강조되어 있습니다.
Ivan Fioravanti ᯅ (@ivanfioravanti)
파라미터 수가 30억(3B)에 불과한 모델이 어떻게 높은 품질에 도달할 수 있는지 놀라움을 표한 질문형 트윗으로, 소형 모델의 성능·효율성에 대한 관심과 의문을 제기합니다.
fly51fly (@fly51fly)
ServiceNow 연구진(E. Penaloza, D. Vattikonda, N. Gontier, A. Lacoste 등)이 언어 모델을 대상으로 'privileged information distillation' 기법을 제안한 논문(2026, arXiv). 특권적(privileged) 정보를 활용한 지식 증류 방식으로 언어 모델 성능·효율 향상을 도모하는 방법과 실험 결과를 다루고 있다.
https://x.com/fly51fly/status/2020611382404956622
#distillation #languagemodels #privilegedinformation #modelcompression
Ivan Fioravanti ᯅ (@ivanfioravanti)
모델 양자화 관련 의견: 4비트(4bit) 양자화는 과도한 압축으로 인해 품질이 떨어지는 반면, 5비트(5bit) 양자화는 결과가 훨씬 낫다는 경험을 공유한 짧은 코멘트입니다. 경량화-정밀도 트레이드오프에 대한 실무적 관찰입니다.
Sparse nén mô hình fine-tuned và dataset thành delta từ bản gốc. Nén 14GB xuống 1.4GB (lossless) hoặc 50MB (tương đương LoRA), phục hồi trong 4 giây. Áp dụng sau khi training, phù hợp mọi mô hình đã huấn luyện. Hiệu quả cho AI y tế, tài chính, pháp lý. #AI #MachineLearning #FineTuning #ModelCompression #Sparse #TríTuệNhânTạo #HọcMáy #NénMôHình
https://www.reddit.com/r/LocalLLaMA/comments/1q47kyt/delta_compression_for_finetuned_models_and/
So sánh GLM-4.6 IQ2_M và GLM-4.6-REAP-268B Q2_K_XL: Hai phương pháp nén khác nhau, một giảm chất lượng toàn bộ mô hình và một loại bỏ cấu trúc nhất định. #GLM #AI #MachineLearning #MôHìnhNén #TríTuệNhânTạo #HọcMáy #NénMôHình #PhươngPhápNén #English: #GLM #AI #MachineLearning #ModelCompression #ArtificialIntelligence
🤯 Did you know that Negativa-ML has achieved up to a 75% reduction in device code for ML frameworks?
This opens HUGE opportunities for edge AI.
What are the most exciting potential applications of this breakthrough in your opinion?
#ShrinkingMlModels #EdgeAI #ModelCompression #ResourceConstraints
Here is what I've been reading this week (btw, if the authors are on Mastodon, please let me know their handles). It mostly deals with #modelcompression and #gpu programming, two problems that have become very interesting to me recently.