Lmst

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Без людей в цикле. Стоимость — один сервер с GPU. Не бывает «лучшей модели» — бывает лучшая модель для конкретной роли. Оркестратору нужен reasoning (GPQA 88.4%), билдеру — кодогенерация (HumanEval 92.7%), критику — понимание tool use (tau-bench 87.4%). Поэтому вместо одного GPT-5 на все задачи — 6 open-source моделей на 9 ролей. Внутри: конкретный маппинг модель → роль с обоснованием через бенчмарки, трюк с шарингом инстансов (9 агентов = 3-4 модели), три конфигурации развёртывания от одной RTX 4090 (24 GB) до кластера A100 (211 GB), квантизация, инфраструктура инференса и интерактивный дашборд.

https://habr.com/ru/articles/1009608/

#LLM #opensource #мультиагентные_системы #MoE #Qwen #DeepSeek #GPU #VRAM #бенчмарки #agent_factory

Your #Mac Has Hidden #VRAM : Learn How to Unlock It in 2026 https://flip.it/9miOaV

96 ГБ видеопамяти в играх: нужно ли столько VRAM геймерам

Знаете, бывают новости, которые читаешь и немного теряешься — не потому что они сложные сами по себе, а потому что сложно поверить в их абсурдность. Именно такой стала публикация в корпоративном блоге Micron под названием «Новое узкое место производительности: как увеличение объема видеопамяти открывает возможности для гейминга и ИИ-ПК нового поколения». Это та самая Micron, которая в декабре прошлого года объявила о прекращении производства памяти под брендом Crucial . Тогда она честно сказала, что хочет сосредоточиться на поставках памяти для ИИ-серверов и «стратегически важных клиентов». Компания ушла с потребительского рынка — и тут же начала объяснять геймерам, почему им нужно больше памяти. Выглядит абсурдно, не так ли?

https://habr.com/ru/companies/x-com/articles/1006870/

#xcom #vram #гейминг #сборка_пк

I've had at least 16GB of VRAM on my GPUs since 2017 (Vega64, specifically I had a frontier edition). And 64GB sysram also since 2017 when I built my first flagship Ryzen rig. That rig, btw, is the 3950X system on my second office desk, still humming along.

The fact that system OEMs are now regressing to 8GB of VRAM and even 8GB of sysram is insane. I had more than that in my Athlon64 rig in like 2005.

Even when the bubble finishes popping, I don't see the DIY PC market recovering in any sensible timeframe. Companies will be going out of business rapidly.

I guess slopware writers will have to improve in efficiency! #ram #dram #vram #gpu #ai #memory

Why the World is Suddenly Running out of RAM
#ColdFusion
#dram #vram #ram #hbm
#ai #samsung #nvidia #aidatacenters #datacenters #consumers #china #aiera #ddr5 #gpu #nvidia #amd #techoligarchs #broligarchs #openai #meta #grok #google #aibubble #cxmt
#skhynix #micron #consumerram #rampocalypse
Feb 28, 2026
https://www.youtube.com/watch?v=-YNk9_e4pg4

Jay Sensei (@hckinz)

러시아 지하 포럼에서 Seedance 2.0 가중치 파일이 유출되었다는 주장이 제기되었습니다. 게시자는 해당 가중치를 96GB VRAM 환경에서 실행할 수 있다고 주장하며 사실 여부는 확인되지 않았습니다. 유출이 사실일 경우 모델 접근성·배포 방식과 커뮤니티 영향에 중요한 변화를 초래할 수 있습니다.

https://x.com/hckinz/status/2026789245630009363

#seedance #modelleak #weights #vram

35min
HW News - More Valve RAM Shortages, Tariffs Ruling, AI Causes PS6 Delays, Hard Drive Price Hike
#GamersNexus #SteveBurke
Feb 21, 2026
#Hardware #dram #vram #ai #harddrive #harddrives #tariffs #ramshortage #valve #hw #news #ps6 #trumptariffs
https://www.youtube.com/watch?v=0P9WrWAXWwI

Presenting: Inevitable Opportunity to Screw Consumers | GPU Pricing Update
#GamersNexus #SteveBurke
Feb 17, 2026
The #GPU pricing situation improved substantially at the end of last year (2025), but as of 2026, it's trending in the wrong direction. In combination with #DRAM (via #VRAM) price spikes and GPU prioritization for #AI #datacenter builds and accelerators, #consumer GPU prices have gone from their recovery curve to instead skyrocket.
https://www.youtube.com/watch?v=ueEc_YBXmeY

I wish using #VRAM as #swap in #Linux was easy and safe. It would be even more useful now that the #AI bubble has caused a surge in the price of #RAM. Many desktop and laptop computers have a discrete #GPU whose dedicated memory is very much underused.

https://wiki.archlinux.org/title/Swap_on_video_RAM

VERA Addressing Trick: Lupe Darksnout Flips the Commander X16 Display
#CommanderX16 #VERA #RetroComputing #6502 #65C02 #AssemblyLanguage #GameDev #Homebrew #RetroDev #VRAM
https://theoasisbbs.com/vera-addressing-trick-lupe-darksnout-flips-the-commander-x16-display/?fsp_sid=1688

Давай немного потроттлим

Пока вы апскейлите видео или гоняете LLM, ваш ноутбук может тихо умирать. Ядро GPU показывает комфортные 65°C, а видеопамять в это время жарится на 105°C, ведь заводская логика следит только за ядром. Рассказываю, как я написал утилиту VRAM Guard на Python, чтобы спасти "золотое" железо от деградации с помощью метода импульсного троттлинга. Вот как он работает... Спасти видеопамять

https://habr.com/ru/articles/991744/

#VRAM #NVIDIA #Python #троттлинг #охлаждение_ноутбука #нейросети #видеопамять #перегрев #Topaz_Video_AI #LibreHardwareMonitor

Angeblich plant #Nvidia sein Angebot an #Grafikkarten zu verschlanken. Für das Q1 2026 sollen 75 % aller GPU-Auslieferungen aus nur 3 Modellen bestehen, die hauptsächlich mit nur 8 GB #VRAM ausgestattet sind. https://winfuture.de/news,156534.html?utm_source=Mastodon&utm_medium=ManualStatus&utm_campaign=SocialMedia

NVIDIA Q1 2026 supply pivots hard toward 8GB GeForce

A new report circulating out of China claims NVIDIA has finalized GeForce supply guidance for Q1 2026, and the alleged strategy is a blunt response to rising memory costs: push volume through 8GB models and treat higher-VRAM cards as limited-availability products.

🔍 Benchmark: Qwen 2.5 7B trên RTX 4070 Super 12GB. FP16 (15.3 GB) phải chuyển sang RAM, tốc độ chỉ 0.7 TPS → giảm 72×. AWQ Int4 (9.9 GB) nằm trong VRAM, đạt 50.9 TPS. Bài học: vượt quá giới hạn VRAM khiến tốc độ sụt giảm mạnh; cần lượng tử (Int4) cho card 12GB. #AI #Benchmark #VRAM #GPU #LLM #Quantization #TríTuệNhânTạo #KiểmĐịnh #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1qqzczy/benchmark_visualizing_the_vram_wall_qwen_25_7b/

🚀 Creator của Pinokio (cocktailpeanut) công bố phân tích sâu về cách HeartMuLa Studio tối ưu VRAM. Kết quả: >20 GB → full precision, không swap (~14 GB); 14‑20 GB → 4‑bit, không swap; 10‑14 GB → 4‑bit + swap; 8‑10 GB → 4‑bit + swap (cảnh báo) – thẻ 8 GB hoạt động nhưng tăng ~70 s thời gian do swap. Hệ thống tự động chọn chế độ theo VRAM. #VRAM #Pinokio #AI #MachineLearning #TốiƯuHóa #AIoptimisation

https://www.reddit.com/r/LocalLLaMA/comments/1qqhf0c/pinokio_creator_just_did_a_deepdive_on_hear

Ollama thiết lập mặc định VRAM quá thấp (4k), gây khó khăn cho người dùng dù mô hình có thể xử lý tới 256k context. Việc thay đổi cài đặt phức tạp và nhiều người sẽ bỏ qua, dẫn đến hiệu suất mô hình yếu. Mac của tôi có 48GB chia sẻ giữa CPU/GPU nhưng Ollama vẫn chưa tự động điều chỉnh hợp lý. #Ollama #AI #MáyHọc #VRAM #HiệuSuấtMôHình

**#Ollama #VRAM #AI #256kContext**
**#Ollama #BộNhớĐồHọa #TríTuệNhiệtNhânTạo**

https://i.redd.it/dvhk25h286gg1.png

Tại sao Ollama lại để mặc định VRAM cố định và khó thay đổi? Việc không tự động dò lượng VRAM có sẵn khiến khả năng xử lý của mô hình bị hạn chế (4k thay vì 256k). Nhiều người dùng sẽ bỏ qua cài đặt này, dẫn đến kết quả tệ hại dù hệ thống có 48GB RAM. #AI #MôHình #Ollama #VRAM #TechIssue

https://i.redd.it/dvhk25h286gg1.png

GLM 4.7 Flash loại bỏ V trong KV cache, tiết kiệm hàng GB VRAM, xử lý ngữ cảnh dài hơn mà không cần nâng cấp phần cứng. #AI #VRAM #GLM47Flash #TríTuệNhânTạo #TiếtKiệm

https://github.com/ggml-org/llama.cpp/pull/19067

GLM 4.7 Flash loại bỏ V trong KV cache → giảm tiêu thụ VRAM hàng GB, cho phép chạy ngữ cảnh dài hơn trên cùng phần cứng. #AI #MachineLearning #GLM #VRAM #AIVietnam #CôngNghệ

https://github.com/ggml-org/llama.cpp/pull/19067

Thảo luận về hạ tầng tính toán hiệu năng cao (HPC) cho AI và LLM cục bộ (on-prem). Các chuyên gia đang tìm kiếm phản hồi về những rào cản lớn nhất khi vận hành mô hình ngôn ngữ lớn:

- Nút thắt cổ chai hiện tại của bạn là gì?
- Bạn gặp khó khăn do thiếu VRAM, băng thông (throughput), độ trễ (latency) hay điều phối (orchestration)?
- Giải pháp tối ưu hóa nào mang lại hiệu quả vượt trội?

#AI #LLM #HPC #GPU #VRAM #CongNghe #PhanMem #MachineLearning #VietAI

https://www.reddit.com/r/LocalLLaMA/comm

#VRam

Client Info