#KVCache

Tensormeshtensormesh
2025-10-26

Do you want to compare the caching performance of your LLM serving stack? We've put together a simple command line tool to do so. Introducing Tensormesh Benchmark.
tensormesh.ai/blog-posts/tenso

N-gated Hacker Newsngate
2025-10-24

🎉 Breaking news: scientists invent a way to accelerate AI learning without actually teaching it anything! 🚀 The secret? 🤔 Just enable KV cache and parallel decoding—because who needs training when you can just fast-forward to the finish line? 🏁 Let’s all donate to to keep this kind of cutting-edge "innovation" flowing. 💸
arxiv.org/abs/2505.22618

2025-10-23

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно. И, вполне вероятно, столкнулись с одной из типичных проблем: «Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить». «Платим за A100, а реально используем лишь 30% ее мощности». Привет, я Павел, ML-инженер в

habr.com/ru/companies/cloud_ru

#VLLM #LLM #инференс_моделей #gpu #веса #vram #квантовые_модели #kvcache #большие_языковые_модели

Hacker Newsh4ckernews
2025-04-29

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst