#LLama

Awni Hannun (@awnihannun)

MLX Distributed에서 텐서 병렬성(tensor parallelism)이 어떻게 동작하는지 저수준 연산부터 텐서 병렬 Llama 추론(full tensor-parallel Llama inference)까지 설명한 블로그 포스트를 소개하는 글입니다. 분산·병렬화 설계와 추론 최적화 관점에서 유용한 기술자료입니다.

x.com/awnihannun/status/201659

#tensorparallelism #mlxdistributed #llama #modelparallel

2026-01-28

Cập nhật llama.cpp: Tính năng self-speculative decoding tăng tốc độ token/s cho mô hình không yêu cầu draft model. Hữu ích cho các tác vụ lặp lại như coding, refactoring. #AI #MachineLearning #llama.cpp #SelfSpeculativeDecoding #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-28

Tôi vừa chuyển server từ Ubuntu sang Fedora, cùng phần cứng nhưng llama.cpp trên Fedora chạy chậm hơn, token/s thấp hơn. Liệu các binary pre‑built của llama.cpp được biên dịch cho Ubuntu, gây giảm hiệu năng trên các distro khác? #llama.cpp #Fedora #Ubuntu #AI #MachineLearning #trí_tuệ_nhân_tạo

reddit.com/r/LocalLLaMA/commen

2026-01-27

Nghiên cứu mới mô hình AI 30B xử lý 1 triệu token trên GPU đơn: 20k tok/s (prefill), 100 tok/s (decode), 66GB VRAM! Kỹ thuật *jump-search* giảm chi phí tính toán từ O(L) còn O(√L), cho phép truy cập toàn bộ ngữ cảnh. Mục tiêu: mô hình open-source khả thi trên GPU 24GB. #AI #MachineLearning #NLP #AIResearch #Llama #TríTuệNhânTạo #KhoaHọcDữLiệu

reddit.com/r/LocalLLaMA/commen

2026-01-27

🚀 Tăng tốc 6x khi chạy GLM 4.7 Flash trên RTX 6000! Thêm -kvu vào llama.cpp để output 8K token từ 17.7t/s → 100t/s. 30B model còn tạo game Zelda thử nghiệm ấn tượng! #AI #ML #Llama #GLM #CôngNghệ #TríTuệNhânTạo #GameDev

reddit.com/r/LocalLLaMA/commen

2026-01-26

靠「開源策略」滲透美國500強企業,中國正在悄悄贏得AI競賽嗎?

BBC News 中文 2026-01-26 14:00:00 CST
中國開源 AI 模型因成本低、可客製化且高效能,獲 Pinterest 等美國企業採用。此「又快又便宜」的趨勢正挑戰美國專有模型的市場地位,並助中國在全球 AI 競賽中取得優勢。
https://www.thenewslens.com/article/264033
#中國 #千問 #科技 #Llama #OpenAI #AI #Bill Ready #字節跳動 #Hugging Face #Kimi #Moonshot #Pinterest #阿特曼 #Airbnb #Meta #Brian Chesky #DeepSeek #阿里巴巴 #深度求索 #Matt Madrigal #大型語言模型 #開源模型

2026-01-25

Mô hình GLM-4.7-Flash giờ còn nhanh hơn với tối ưu mới trên llama.cpp, tăng hiệu suất suy luận mà không cần phần cứng mạnh. Phù hợp cho triển khai cục bộ, tiết kiệm tài nguyên và tối ưu tốc độ. #GLM47Flash #llama.cpp #AI #LLM #TríTuệNhânTạo #AIlocall #MôHìnhNgônNgữ

reddit.com/r/LocalLLaMA/commen

Nele VDP has movedNele1999
2026-01-25

Gevonden tussen de foto's van 2024. In december was ik op m'n eentje met de trein naar Oostende gegaan. Zeehondjes gespot. Een aangespoelde sprot terug in zee geworpen en een dutje gedaan in een verwelkomend kattencafé.

Lama knuffeltje op een met mos en zeepokken begroeide rots. Erachter een strand met eb, geribbeld en nat door de weggetrokken golven. De grijze Noordzee in de verte.
2026-01-25

Công ty khởi nghiệp tạo ra "NVIDIA KILLER" dựa trên llama.cpp, cho phép chạy mô hình LLM 120B+ parameter với chỉ 2x RTX 5070-TI + 64GB RAM + SSD. #NVIDIAKILLER #LLaMA #AI #TríTuệNhânTạo #InferenceEngine #GPU

reddit.com/r/LocalLLaMA/commen

2026-01-25

🚀 Chạy thành công mô hình 14B trên 3 Jetson Orin Nano! Tốc độ 3-4 token/giây qua mạng, nhưng đã tối ưu code Python hiệu quả. #AI #LLaMA #Jetson #DeepLearning #CôngNghệ

reddit.com/r/LocalLLaMA/commen

2026-01-24

Chạy mô hình MoE (GLM-4, GPT-OSS) trên CPU/RAM: Hiệu năng phụ thuộc vào băng thông bộ nhớ, không phải dung lượng. Với DDR5-6000 (hiệu dụng ~35GB/s), tốc độ đạt 20.5 tokens/giây (GLM-4.7-Flash) và 13.7 tokens/giây (GPT OSS 120B). Cần tối ưu BIOS (XMP, PL1/PL2 219W), làm mát tốt, undervolt và compile `llama.cpp` đúng cấu hình (Raptor Lake). Dùng `taskset` để chạy trên P-cores, tận dụng GPU để tăng tốc.

#AI #LLM #MoE #GLM4 #GPTOSS #CPUInference #llama.cpp #MachineLearning #TríTuệNhânTạo #MôHìnhN

Aivan Monceller (@aivandroid)

llama.cpp(ggml_org)가 Anthropic API를 네이티브로 지원하기 시작했다는 개발자 도구 업데이트입니다. 이를 통해 GLM-4.7-Flash( Zai_org )를 Claude Code 내에서 프록시 없이 사용 가능해졌고, UnslothAI의 4비트 양자화 설정을 3090 GPU에서 테스트 중이라는 내용입니다.

x.com/aivandroid/status/201421

#llama.cpp #anthropic #glm4.7 #quantization #ggml

2026-01-22

Dự án Sentinel: công cụ khai thác lead trên Reddit bằng RSS và Llama 3, tránh phí API. Sử dụng TypeScript/Node.js, rss‑parser, AI Groq để phân tích ý định thực tế, chi phí dữ liệu $0, chạy trên tầng miễn phí. Mời chia sẻ ý tưởng cải tiến. #Reddit #LeadGenerator #AI #Nodejs #RSS #Llama #CôngNghệ #SideProject #TiếtKiệmChiPhí

reddit.com/r/SideProject/comme

Unsloth AI (@UnslothAI)

GLM-4.7-Flash용 GGUF 파일들이 llama.cpp의 최근 버그 수정 이후 출력 품질이 크게 향상되었다고 보고합니다. GGUF들을 재변환 및 업데이트했으며 18GB RAM에서 4비트로 로컬 실행 가능하다고 알립니다. 수정 사항을 반영하려면 모델을 재다운로드하고 @Zai_org가 제안한 추론 파라미터를 사용하라고 권장하며 Hugging Face 링크를 공유했습니다.

x.com/UnslothAI/status/2013966

#glm4.7flash #gguf #llama.cpp #localllm #huggingface

Deli (@deligong)

Claude Code와 GLM-4.7-Flash(Q8_K_XL)를 이용해 llama.cpp 기반으로 Flappy Bird를 재구현했다고 보고합니다. 64GB MacBook Pro(M4)에서 로컬 모델로 실행했으며 속도는 빠르지 않지만 로컬 모델 치고 코드 품질이 매우 뛰어나다고 평가합니다. 로컬 LLM 실용성 및 코드 품질 시연 사례입니다.

x.com/deligong/status/20140198

#localllm #claude #glm4.7flash #llama.cpp #ggml

𝗭𝗲𝗻 𝗠𝗮𝗴𝗻𝗲𝘁𝘀 (@ZenMagnets)

한 사용자가 Llama 3.1 8b로 RTX 6000 Pro에서 DGX Spark보다 6.7배 빠른 성능을 달성했다고 보고했습니다(링크 포함). 또한 vllm_benchmark_suitev2를 이용해 qwen3-8b-q4 등 모델을 벤치마크해볼 것을 권장합니다.

x.com/ZenMagnets/status/201367

#rtx6000 #dgx #llama #vllm #qwen

Daniel Han (@danielhanchen)

llama.cpp 기반 사용 관련 실험 및 문제 보고: LM Studio 사용 시 repeat-penalty 비활성화 권장, vLLM은 dry-multiplier가 없어 BF16 모드에서 반복 토큰이 발생하는 문제 관찰 중이며 개선 방안을 모색 중이라는 개발자·운영 이슈 공유.

x.com/danielhanchen/status/201

#llama.cpp #vllm #lmstudio #bf16

2026-01-20

Llama.cpp đã tích hợp Anthropic Messages API, cho phép kết nối Claude Code với server local. Hỗ trợ chat hoàn chỉnh, đếm token, gọi hàm, xử lý ảnh và tư duy phân tích qua tham số "thinking". Dùng với model phù hợp như Qwen3-80B hoặc các model lập trình chuyên dụng để đạt hiệu quả cao. Dễ dàng thiết lập và sử dụng toàn bộ tính năng Anthropic trên thiết bị cá nhân. #llama.cpp #AnthropicAPI #LocalAI #AI #trítuệnhântạo #MáyHC #HuggingFace

reddit.com/r/LocalLLaMA/commen

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst