Lmst

Phương pháp "Trajectory Distillation" giúp giảm chi phí huấn luyện các mô hình lớn (Foundation Models) mà vẫn giữ được khả năng suy luận sâu. Qwen3-8B đạt 74.4% trên AIME'24 với chi phí thấp hơn 10 lần so với RL. #AI #MachineLearning #DeepLearning #TríTuệNhânTạo #HọcMáy #HọcSâu

https://www.reddit.com/r/LocalLLaMA/comments/1ooytlg/trajectory_distillation_for_foundation_models/

Nghiên cứu mới giới thiệu một bộ tiêu chuẩn có thể tái tạo để dự báo năng lượng, so sánh hiệu suất của các mô hình tiên tiến như PatchTST, Autoformer, Informer với các phương pháp truyền thống. Mục tiêu là cung cấp nền tảng đáng tin cậy cho việc phát triển và đánh giá thuật toán dự báo.

#DựBáoNăngLượng #TiêuChuẩn #HọcSâu #KhoaHọcDữLiệu #EnergyForecasting #Benchmark #DeepLearning #DataScience

https://www.reddit.com/r/LocalLLaMA/comments/1oof7w4/a_reproducible_benchmark_for_energy_forecasting/

"GPU Poor LLM Arena" đã trở lại! Nền tảng thử nghiệm LLM dành cho GPU yếu nay có thêm các mẫu mới: Granite 4.0 (Small, Tiny, Micro), Qwen 3 (4B, 30B), OpenAI gpt-oss. Lưu ý một số mẫu lớn có thể yêu cầu cấu hình cao hơn. Các mẫu sử dụng định dạng Unsloth GGUFs tối ưu.

#LLM #GPU #AI #LocalLLaMA #NLP #Arena #DeepLearning #TríTuệNhânTạo #HọcSâu #MôHìnhNgônNgữLớn

https://www.reddit.com/r/LocalLLaMA/comments/1o4mwet/gpu_poor_llm_arena_is_back/

Nghiên cứu mới giới thiệu LLM-JEPA, kết hợp LLM với kiến trúc dự đoán nhúng chung (JEPA) từ thị giác máy tính. Phương pháp này cải thiện đáng kể quá trình huấn luyện LLM, giúp chúng hoạt động hiệu quả hơn và chống overfitting. LLM-JEPA áp dụng cho cả pretraining và finetuning, mở ra tiềm năng lớn cho phát triển AI.
#LLM #AI #DeepLearning #Research #MachineLearning
#MôHìnhNgônNgữLớn #TríTuệNhânTạo #HọcSâu #NghiênCứu

https://www.reddit.com/r/LocalLLaMA/comments/1o4av71/llmjepa_large_language_mode

Quy tắc chung: mô hình AI lớn lượng tử hóa thường tốt hơn mô hình nhỏ ít lượng tử hóa. Nhưng liệu quy tắc này có đúng khi lượng tử hóa sâu hơn (dưới 4-bit)? Người dùng GLM 4.5 nhận thấy bản 2-bit vẫn rất hiệu quả. Bạn có kinh nghiệm/quy tắc nào khi chọn mô hình lớn/nhỏ với các mức lượng tử hóa khác nhau?

#AI #LLM #Quantization #DeepLearning #MôHìnhNgônNgữ #LượngTửHóa #HọcSâu

https://www.reddit.com/r/LocalLLaMA/comments/1o44u78/we_know_the_rule_of_thumb_large_quantized_models/

Open-source LLMs liệu có thể vượt mặt các công ty closed-source như Claude, Grok, ChatGPT? Dù các "ông lớn" được đầu tư hàng tỷ đô, DeepSeek đã chứng minh khả năng tạo đột phá. Liệu open-source có thể làm nên chuyện? 🤔

#AI #OpenSource #LLM #DeepLearning #TríTuệNhânTạo #MãNguồnMở #HọcSâu

https://i.redd.it/a1fnssvaj3uf1.png

#H%E1%BB%8DcS%C3%A2u

Client Info