#AIInference

2026-01-20

vLLM 0.13 chạy thành công trên Windows 11 với RX 7900 XT qua ROCm (TheRock), đạt ~3.4 tok/s dùng TRITON_ATTN. ROCM_ATTN crash, TRITON_ATTN ổn định hơn. Cài đặt còn thủ công, nhiều phần thiếu biên dịch → dùng fallback Python. Chi tiết trong log. #vLLM #ROCm #AI #Triton #LLM #WindowsML #vLLM0.13 #AIInference #TínhToánLocal #MôHìnhNgônNgữ

reddit.com/r/LocalLLaMA/commen

2026-01-19

🖥️ Xây máy AI với 4× RTX 5060Ti (7600X3D, ASUS 650, 64 GB DDR5). Hai card qua OCuLink eGPU, một ở slot gen4 x8, một gen4 x1. 🚧 Sự cố: sau cập nhật driver Nvidia, tốc độ inference giảm vì cáp OCuLink dài 150 cm. Dùng cáp ngắn hơn, hiệu năng phục hồi (GPT‑OSS‑120b đạt 30‑50 t/s). 👉 Kế hoạch chi tiết, chú ý độ dài cáp và driver. #AI #GPU #PCBuild #Tech #AIInference #RTX5060Ti #CôngNghệ #Hardware

reddit.com/r/LocalLLaMA/commen

gatehouse (@imangegatehouse)

트윗은 @deepseek_ai가 AI 추론·학습에서 고가의 HBM(High-Bandwidth Memory) 필요성을 제거해 메모리(RAM) 문제를 해결할 방법을 찾았을 수 있다고 주장합니다. 또한 DRAM 가격이 10주 만에 5배 상승했다는 점을 언급하며 하드웨어 비용 절감과 메모리 혁신의 잠재적 영향을 시사합니다.

x.com/imangegatehouse/status/2

#hbm #dram #memoryoptimization #aiinference

2026-01-13

EPYC 9175F single‑socket với 12 kênh RAM (≈600 GB/s) đang được quan tâm cho AI inference và kết hợp GPU. Người dùng muốn benchmark: Meta‑Llama‑3.1‑70B‑Instruct Q8_0 đạt 115 t/s trên nền tảng này, so với M3Max 128 GB. Cần dữ liệu thực tế, tối ưu phần mềm. Ai có kết quả chia sẻ nhé! #EPYC #AIInference #CPU #GPU #MachineLearning #Hardware #Vietnam #CôngNghệ

reddit.com/r/LocalLLaMA/commen

Morgan Creek Digital (MCD) (@DigitalCurrents)

Morgan Creek의 포트폴리오 기업 Groq가 NVIDIA와 전략적 비독점 라이선스 계약을 체결했다는 소식입니다. 이 계약은 특화된 AI 추론 아키텍처의 중요성을 강조하며 보도에 따르면 엔비디아 역사상 최대 자산 인수에 해당한다고 전해져 업계 컴퓨트 스택 재편 가능성을 시사합니다.

x.com/DigitalCurrents/status/2

#nvidia #groq #aiinference #licensing #ai

2026-01-12

Now that the dust has settled on last week's splashy #VeraRubin announcement from NVIDIA during #CES, enterprise IT experts weigh its potential impact for mainstream companies once the system ships later this year. #datacenter #AIinfrastructure #AIinference #RedHat #Azure techtarget.com/searchitoperati

BuySellRam.comjimbsr
2026-01-08

reddit.com/r/AIHardwareNews/co

Why this matters to the industry
Nvidia solidifies dominance beyond GPU training
Competitive pressure shifts in AI hardware
The deal signals industry focus on inference
Talent consolidation and future architectures (LPU?)

2026-01-07

RTX 3090 + 64GB RAM có đủ mạnh để chạy mô hình LLM 34B như LLaVA-Next (Q4_K_M) và dùng đa nhiệm hàng ngày? Cấu hình: Ryzen 5 5600X, 24GB VRAM, SSD 980 Pro 1TB. Dự định dùng cho inference, xử lý hình ảnh + văn bản, tự động hóa Home Assistant. Có cần chuyển GPU giữa các tác vụ? Có lo ngại về VRAM khi dùng desktop bình thường? #LocalLLM #AIInference #LLaVA #AI #MultimodalAI #MôHìnhNgônNgữ #TríTuệNhânTạo #HệThốngLocalAI

reddit.com/r/LocalLLaMA/commen

2026-01-06

RTX 3090 + 64GB RAM có đủ mạnh để chạy LLM 34B như LLaVA-Next (Q4_K_M) không? Cấu hình Ryzen 5 5600X + 24GB VRAM phù hợp cho suy luận cục bộ, xử lý hình ảnh + văn bản, tự động hóa Home Assistant. GPU có thể tạm ngừng để chơi game rồi tải lại. Không có vấn đề lớn với VRAM khi sử dụng máy tính thông thường. Lưu ý: CPU có thể là điểm nghẽn nhẹ. #LocalLLM #AIInference #LLaVA #AI #MáyTínhAI #HọcMáy #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-06

Benchmark hiệu năng mô hình DeepSeek 671B trên 8 x RTX PRO 6000S sử dụng llama.cpp (layer split mode). Ở định dạng Q4_K_M, tốc độ đạt ~1015 t/s (prefill) và 40.74 t/s (generation). Với Q8_0, tốc độ cao hơn nhưng chiếm nhiều VRAM (~664GB). Hiệu suất thay đổi theo độ dài context (4k–64k). Dữ liệu hỗ trợ lựa chọn cấu hình phù hợp cho LLAMA cục bộ. #DeepSeek #llama.cpp #AI #HPC #DeepSeek671B #MôHìnhLớn #AIInference #DeepSeek #llama.cpp #AI #HighPerformanceComputing #LargeModels #AIInference

https:/

2026-01-04

GPU RTX 5070 Ti chậm hơn 4070 Ti khi VRAM tràn sang RAM? Người dùng báo khi chạy model ministral 3 14B (Q4_K_M) với context 64K, 4070 Ti đạt 23 t/s trong khi 5070 Ti chỉ 11 t/s. Khi không tràn bộ nhớ, 5070 Ti nhanh hơn. Vấn đề có thể liên quan đến hiệu suất truy cập RAM hệ thống hoặc tối ưu driver. Cần kiểm tra thêm. #GPU #AIinference #LocalLLaMA #CardMànHình #AI #MáyHọc #DeepLearning

reddit.com/r/LocalLLaMA/commen

2026-01-04

NVIDIA Just Spent $20 Billion on a Company You've Never Heard Of—Here's Why That Matters

techlife.blog/posts/nvidia-gro

#NVIDIA #Groq #AIInference #Acquisition #Meta #Manus

2026-01-01

Người dùng mới sở hữu RTX 5070Ti và 5080, mong muốn chạy multi-GPU trên Windows để xử lý mô hình AI với 32GB VRAM. Tuy nhiên, gặp khó khăn khi các công cụ như llama.cpp, vLLM, oobabooga không nhận GPU thứ hai hoặc bị lỗi do hỗ trợ Blackwell chưa ổn định. Hỏi cộng đồng về hướng dẫn mới hoặc giải pháp khả thi, chấp nhận chuyển sang Linux nếu cần. #AI #GPU #NVIDIA #Blackwell #llama #vLLM #Windows #Linux #AIWorkstation #MáyTínhCáNhân #CardMànHình #HPC #AIInference

reddit.com/r/LocalLLaM

2025-12-27

Nvidia nie bierze jeńców. Wydaje 20 mld dolarów na „mózgi” Groq w największej transakcji w swojej historii

Mieli być „pogromcą Nvidii”, oferując szybsze i tańsze chipy do AI. Zamiast tego, ich szefowie i technologia właśnie trafili pod skrzydła Jensena Huanga.

Nvidia cementuje swoją pozycję monopolisty, wydając rekordowe 20 miliardów dolarów w kontrowersyjnym modelu „acquihire”.

Groq był gwiazdą startupów AI. Ich procesory LPU (Language Processing Units) obiecywały to, czego GPU Nvidii nie potrafiły: błyskawiczne generowanie odpowiedzi (inference) przy ułamku kosztów energii. Firma budowała nawet własne centra danych w Europie i otwarcie oskarżała Nvidię o praktyki monopolistyczne. Cóż, jak mówi stare porzekadło: jeśli nie możesz ich pokonać, kup ich.

Najdroższe „CV” w historii

Według doniesień Tom’s Hardware, transakcja jest majstersztykiem prawnym, mającym na celu ominięcie urzędów antymonopolowych. Nvidia nie kupuje firmy Groq (co zablokowałaby Federalna Komisja Handlu). Zamiast tego:

  • Płaci 20 miliardów dolarów za niewyłączną licencję na własność intelektualną Groq.
  • Zatrudnia kluczowych pracowników, w tym założyciela i CEO Jonathana Rossa (twórcę układów TPU Google’a) oraz prezydenta Sunny’ego Madrę.

To model działania znany jako „acquihire” (przejęcie dla talentów), który w ostatnich latach stosowały Microsoft (z Inflection AI) i Amazon (z Adept).

Co zyskuje Nvidia?

Jensen Huang, CEO Nvidii, powiedział wprost: „Planujemy zintegrować procesory Groq o niskich opóźnieniach z architekturą fabryk AI Nvidii”. Oznacza to, że firma łata swoją jedyną słabość – wydajność w tzw. inference (wnioskowaniu). Nvidia ma najlepsze chipy do uczenia AI, ale Groq miał lepsze do jej obsługi. Teraz Nvidia ma obie te rzeczy.

Groq jako „wydmuszka”?

Formalnie Groq pozostaje niezależną firmą. Nowym CEO zostanie dotychczasowy dyrektor finansowy Simon Edwards, a usługa GroqCloud ma działać bez zmian. Pytanie jednak, czym jest firma technologiczna bez swoich założycieli, kluczowych inżynierów i z technologią, którą właśnie oddała największemu konkurentowi?

Dla rynku to jasny sygnał: w 2026 roku Nvidia zamierza być jedynym liczącym się graczem. A 20 miliardów dolarów to dla nich niska cena za święty spokój.

Koniec eldorado w chmurze. Od 1 stycznia NVIDIA wprowadza sztywne limity w GeForce Now

#AIInference #Groq #JensenHuang #JonathanRoss #LPU #nvidia #przejęcie #rynekChipów #sztucznaInteligencja
NVIDIA
BuySellRam.comjimbsr
2025-12-27

reddit.com/r/AIHardwareNews/co

What Nvidia’s acquisition of Groq means for AI industry?

Why this matters to the industry
Nvidia solidifies dominance beyond GPU training
Competitive pressure shifts in AI hardware
The deal signals industry focus on inference
Talent consolidation and future architectures (LPU?)

AI Daily Postaidailypost
2025-12-25

Former Google exec Ross Wintrobe’s startup Groq is teaming up with NVIDIA to boost AI inference. Their Language Processing Unit promises deterministic, low‑latency performance that could complement traditional GPUs. Curious how this partnership might reshape the inference landscape? Read on.

🔗 aidailypost.com/news/groq-foun

2025-12-22

Người dùng Reddit đang tìm nhà cung cấp dịch vụ inference cho SAM Audio, vì chạy trên Runpod/Modal quá đắt. Cần gợi ý! #SAMAudio #AIInference #LocalLLaMA #MáyHọc

reddit.com/r/LocalLLaMA/commen

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst