#llama

2026-02-03

Some of y’all missed out on this cultural phenomenon and it shows

#winamp #sound #llama

2026-02-02

Now my main man @goinggodotnet speaking at the AI Plumbers #fosdem unconf about Kronk/yzma

#golang #ml #llama

2026-02-01

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

NVIDIA выпустила отчет о методе QAD, который позволяет квантовать LLM в 4 бита без потери качества на сложных задачах (математика, код). Разбираем, почему привычный QAT «ломает» модели после RLHF, как дистилляция через KL-дивергенцию решает эту проблему и почему метод работает даже на рандомных данных. Личный опыт попыток уместить 49B модель в железо и анализ нового подхода.

habr.com/ru/articles/991586/

#LLM #Квантизация #NVIDIA #QAD #QAT #FP4 #Blackwell #Machine_Learning #Llama #Distillation

2026-02-01

Phát triển hệ thống tự động tuân thủ bằng AI cho môi trường phân loại, hoạt động ngoại tuyến hoàn toàn với Llama. Ứng dụng tập trung vào đánh giá STIG và tuân thủ CMMC, loại bỏ thao tác thủ công. Người dùng tương tác với công cụ, không trực tiếp với mô hình, đảm bảo an ninh. Thách thức: chọn mô hình nhẹ, hiệu suất cao và không phụ thuộc API bên ngoài. Bạn cũng đang xây dựng cho môi trường offline/riêng tư? #AI #LocalLLaMA #Cybersecurity #AnNinhMang #TuânThủ #AIAnToàn #OfflineAI #Llama

https://w

2026-01-30

Nhà phát triển tạo ra mô hình Llama 1GB tuân theo các quy tắc Rust nghiêm ngặt bằng cách sử dụng đồ thị bộ nhớ sinh học. Mô hình này có thể nhớ và áp dụng các quy tắc một cách hiệu quả. #AI #Llama #Rust #TríTuệNhânTạo #HọcMáy #BộNhớSinhHọc #RustRules #LocalFirst

reddit.com/r/LocalLLaMA/commen

github.com/ghostwriterghostwriter@phpc.social
2026-01-30

AI is a tool, and its output is a reflection of its user.

Used well, it sharpens human thinking and expands potential.

Used poorly, it automates confusion and risk at scale.

And, all LLMs are vulnerable to prompt-injection.

#AI #LLM #PromptInjection #CyberSecurity #ArtificialIntelligence #MachineLearning #GPT #OpenAI #DataSecurity #ChatGPT #Privacy #Security #Claude #Gemini #Llama #Copilot #Anthropic #GoogleAI #MetaAI #Microsoft #MistralAI #xAI #Cohere #AISafety #AISecurity #Tech #Technology

2026-01-29

So sánh hiệu năng của GPT-4.1 Nano, Gemini 2.5 Pro và Llama 4 (17B) trên tác vụ RAG pháp lý. Kết quả từ bài kiểm tra của /u/OldBlackandRich trên Reddit. #AI #RAG #Llama #Gemini #GPT4 #CôngNghệ #AIVietnamese #RAGVietnamese

reddit.com/r/SaaS/comments/1qq

2026-01-29

Phiên bản chưa giới hạn 7B (như Manticore) đang cũ, cập nhật mới nhất là gì? Hiện chưa rõ mô hình 7B hàng đầu chưa qua kiểm duyệt nào mới nhất. #AI #LLaMA #MôHìnhNgônNgữ #CôngNghệ #Technology #7B #UncensoredAI #Manticore

reddit.com/r/LocalLLaMA/commen

2026-01-29

Một tính năng mới đã được thêm vào dự án llama.cpp để hỗ trợ phân tích mô hình Solar-Open-100B (mô hình AI lớn). Tùy chọn "reasoning_effort" cho phép điều chỉnh mức độ suy luận (từ thấp đến cao). Tham khảo chi tiết tại Reddit và GitHub.

#AI #LLaMA #SolarOpen100B #MáyHọc #CôngNghệAI #MôHìnhĐại #PhátTriểnMôHình

reddit.com/r/LocalLLaMA/commen

ComputerBaseComputerBase
2026-01-29
eicker.news ᳇ tech newstechnews@eicker.news
2026-01-29

#Arcee AI, a 30-person #startup, released #Trinity, a 400B-parameter #opensource #LLM. The company aims to compete with #Meta’s #Llama and other large models, particularly appealing to developers and academics. Arcee emphasises its commitment to open source, using the Apache licence, and offers Trinity in various versions for different use cases. techcrunch.com/2026/01/28/tiny #tech #media #news

Awni Hannun (@awnihannun)

MLX Distributed에서 텐서 병렬성(tensor parallelism)이 어떻게 동작하는지 저수준 연산부터 텐서 병렬 Llama 추론(full tensor-parallel Llama inference)까지 설명한 블로그 포스트를 소개하는 글입니다. 분산·병렬화 설계와 추론 최적화 관점에서 유용한 기술자료입니다.

x.com/awnihannun/status/201659

#tensorparallelism #mlxdistributed #llama #modelparallel

2026-01-28

Cập nhật llama.cpp: Tính năng self-speculative decoding tăng tốc độ token/s cho mô hình không yêu cầu draft model. Hữu ích cho các tác vụ lặp lại như coding, refactoring. #AI #MachineLearning #llama.cpp #SelfSpeculativeDecoding #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-28

Tôi vừa chuyển server từ Ubuntu sang Fedora, cùng phần cứng nhưng llama.cpp trên Fedora chạy chậm hơn, token/s thấp hơn. Liệu các binary pre‑built của llama.cpp được biên dịch cho Ubuntu, gây giảm hiệu năng trên các distro khác? #llama.cpp #Fedora #Ubuntu #AI #MachineLearning #trí_tuệ_nhân_tạo

reddit.com/r/LocalLLaMA/commen

2026-01-27

Nghiên cứu mới mô hình AI 30B xử lý 1 triệu token trên GPU đơn: 20k tok/s (prefill), 100 tok/s (decode), 66GB VRAM! Kỹ thuật *jump-search* giảm chi phí tính toán từ O(L) còn O(√L), cho phép truy cập toàn bộ ngữ cảnh. Mục tiêu: mô hình open-source khả thi trên GPU 24GB. #AI #MachineLearning #NLP #AIResearch #Llama #TríTuệNhânTạo #KhoaHọcDữLiệu

reddit.com/r/LocalLLaMA/commen

2026-01-27

🚀 Tăng tốc 6x khi chạy GLM 4.7 Flash trên RTX 6000! Thêm -kvu vào llama.cpp để output 8K token từ 17.7t/s → 100t/s. 30B model còn tạo game Zelda thử nghiệm ấn tượng! #AI #ML #Llama #GLM #CôngNghệ #TríTuệNhânTạo #GameDev

reddit.com/r/LocalLLaMA/commen

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst