#VLM

Prince Canuma (@Prince_Canuma)

mlx-vlm v0.3.10 대규모 업데이트 출시. 이번 버전은 역대 최대 규모로 LFM2.5-VL(@liquidai), DeepSeek OCR 2(@deepseek_ai), Qwen3-Omni(@Alibaba_Qwen), Molmo2(@allen_ai), Jina VLM(@JinaAI_), HunyuanOCR(@TencentHunyuan), PaddleOCR-VL(@PaddlePaddle) 등 다수의 신규 모델을 추가해 멀티모달·OCR·비전-언어 모델 생태계를 확장했습니다.

x.com/Prince_Canuma/status/201

#mlxvlm #multimodal #vlm #ocr #openmodels

2026-01-28

merve (@mervenoyann)

O'Reilly EA(얼리 액세스)에 Vision Language Models 책의 두 장을 배포했다는 공지: 'Post-training VLMs' 장은 파인튜닝, DPO, GRPO, LoRA 등과 GPU 자원 적은 환경에 적합한 기법을 다루고, 'Deploying Models' 장은 추론 엔진, 양자화 등 배포/추론 관련 실무 내용을 다룬다고 소개.

x.com/mervenoyann/status/20161

#visionlanguage #vlm #finetuning #lora #oreilly

2026-01-23

Cảnh báo: Các mô hình VLM OCR gặp hiện tượng hallucination, chèn thông tin không có trong tài liệu – người, xe, vòng lặp – dù nhiệt độ đã 0. Người dùng thử gemma3‑27b‑it‑AWQ và allenai/olmOCR‑2‑7B‑1025‑FP8, kết quả chưa ổn, cần cải thiện để tránh fan‑fiction trong báo cáo. #AI #VLM #OCR #Hallucination #CôngNghệ #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2026-01-23

Bộ dữ liệu Hugging Face mới (17-23/1/2026): LightOnOCR-mix-0126 cho OCR hiệu suất cao, lunara-aesthetic đánh giá hình ảnh thẩm mỹ, ChartVerse-SFT cho nhận diện biểu đồ, pubmed-ocr cho tài liệu khoa học. OmniScience: dữ liệu đa phương thức từ báo khoa học; 10Kh-RealOmin-OpenData cho robot học; PhysicalAI cho xe tự hành. RubricHub_v1 đánh giá LLM, LongPage tóm tắt văn bản dài. FOMO300K: 318k ảnh MRI não. #HuggingFace #Dataset #AI #MachineLearning #OCR #Robotics #MedicalAI #VLM #Vietnamese

https:/

StepFun (@StepFun_ai)

오픈소스 SOTA 비전-언어 모델 STEP3-VL-10B를 소개하는 발표. 파라미터 수는 10B로 비교적 작지만 100B/200B급 모델들과 동등하거나 더 나은 효율을 보이며, STEM 및 멀티모달 평가에서 GLM-4.6V를 능가한다고 주장합니다. 경량 고성능 VLM 공개 소식입니다.

x.com/StepFun_ai/status/201367

#step3vl10b #visionlanguage #opensource #vlm

TechRadar (@techradar)

Raspberry Pi AI HAT+ 2는 40 TOPS 연산 성능, 8GB 메모리, PCIe 연결을 지원해 로컬에서 LLM 및 VLM 워크로드를 실행할 수 있도록 설계된 하드웨어 확장 보드입니다. 엣지 환경에서 대형 언어·비전 모델 구동을 목표로 하는 신제품 소개입니다.

x.com/techradar/status/2013697

#raspberrypi #edgeai #llm #vlm #hardware

Aradhye Agarwal (@AradhyeAgarwal)

CMU 박사과정생 Ayush Jain이 Microsoft Research India에서 발표한 강연 소개 트윗입니다. 주제는 '2D-3D VLMs 통합을 통한 장기(장기간) 임베디드 인식(embodied perception)'으로, 그의 연구와 지도교수 Katerina Fragiad의 연관성 및 MSR 방문 소식이 언급되어 있습니다.

x.com/AradhyeAgarwal/status/20

#vlm #visionlanguage #embodiedai #research

2026-01-14

Đang thử dùng VLM nội bộ (Llama‑4, qwen3‑VL‑30B) để OCR tài liệu quét, nhưng gặp “hallucination” trên ảnh mờ, chữ viết tay và bố cục phức tạp (bảng, đa cột). Mô hình thiên về văn bản in sạch, tiêu tốn GPU lớn và vẫn cho kết quả kém, làm sai lệch phân tích NLP. Giải pháp tiềm năng: tiền xử lý ảnh (tăng độ nét, giảm nhiễu), kết hợp OCR truyền thống trước khi đưa vào VLM, hoặc điều chỉnh siêu tham số/quantization. #AI #OCR #VLM #NLP #MachineLearning #TríTuệNhânTạo #NhậnDạngVănBản #XửLýNgônNgữ #Công

2026-01-14

Các VLM nội bộ (như Llama‑4 scout, qwen3‑VL‑30B) gặp khó khăn nghiêm trọng khi OCR tài liệu quét: ảnh mờ, chữ viết tay và bố cục phức tạp (bảng, cột) thường bị mô hình "ảo tưởng", sai lệch dữ liệu và làm hỏng đầu ra NLP. Người dùng đề xuất cải thiện tiền xử lý ảnh, sharpen, hoặc quay lại OCR truyền thống để tăng độ tin cậy. #AI #VLM #OCR #NLP #MachineLearning #TríTuệNhânTạo #NhậnDạngVănBản #CôngNghệThôngTin

reddit.com/r/LocalLLaMA/commen

Yanjiang Guo (@GYanjiang)

VLA 모델이 급증하는 상황에서 기본 VLM(비전-언어 모델) 선택이 VLA 성능에 어떻게 영향을 주는지를 규명하기 위한 대규모 체계적 연구를 발표합니다. 해당 연구는 Alibaba의 Qwen과 협력해 진행되었으며, VLM 선택에 따른 성능 차이 분석을 통해 멀티모달 에이전트 설계에 중요한 인사이트를 제공합니다.

x.com/GYanjiang/status/2011264

#vla #vlm #multimodal #qwen #research

2026-01-14

Loggr – ứng dụng nhật ký sức khỏe chạy hoàn toàn offline trên Apple Silicon, dùng pipeline NLP tùy chỉnh để trích xuất thực phẩm, tập luyện, ngủ… Gần đây tích hợp OCR bằng VLM (Qwen2.5‑VL‑3B) để đọc nhật ký viết tay. Họ đang tìm beta tester có sổ giấy cũ, đặc biệt là chữ viết khó, đa ngôn ngữ, bố cục lạ. Nếu muốn tham gia thử nghiệm, hãy liên hệ! #AI #VLM #OCR #HealthTech #Loggr #TríTuệNhânTạo #NhậnDạngChữViết #ỨngDụngSứcKhỏe

reddit.com/r/LocalLLaMA/commen

2026-01-12

Будущее дронов: встроенный ИИ

Всё больше БПЛА используют машинное зрение для навигации и распознавания объектов. Обычно предполагается, что это система с ограниченными вычислительными возможностями, которой управляет оператор удалённо, а движок ИИ работает из облачного сервиса с подключением через интернет. Но что, если на БПЛА поставить локальную модель и мощный GPU-ускоритель, чтобы ИИ работал локально и самостоятельно принимал решения? Несколько лет назад такое казалось фантастикой. Но сейчас прогресс в области БПЛА настолько бурный, что ситуация меняется каждые несколько месяцев. Посмотрим, какие ИИ-ускорители устанавливаются в современные дроны.

habr.com/ru/companies/ruvds/ar

#Tiiny_AI #Tiiny_AI_Pocket_Lab #перепрошивка_дронов #распознавание_объектов #TurboSparse #PowerInfer #бортовой_модуль_ИИ #VLM #визуальная_языковая_модель #умный_город

2026-01-09

Real Madrid đã có chiến thắng nghẹt thở 2-1 trước Atletico Madrid tại bán kết Siêu cúp Tây Ban Nha! ⚽

Trận derby Madrid kịch tính với lối chơi bài bản theo phong cách Italia đã giúp "Kền kền trắng" giành vé vào chung kết. Tại đây, họ sẽ chờ đại kình địch Barcelona trong trận Siêu kinh điển hứa hẹn bùng nổ! 🔥

#RealMadrid #AtleticoMadrid #Barcelona #SuperCup #LaLiga #SiêuCúpTâyBanNha #DerbyMadrid #ElClásico #VintageReal #BánKết #ChungKết #ĐấuTrườngDanhVọng #BóngĐáTâyBanNha #VLM #Atleti #Barca #

2026-01-07

Nên tinh chỉnh VLM bằng dữ liệu đa dạng hay dày đặc? 🤔 Thử nghiệm mới cho thấy: Dữ liệu đa dạng (nhiều ảnh) tốt hơn cho khả năng suy luận. Dữ liệu dày đặc (ít ảnh, nhiều câu hỏi) chỉ giúp ghi nhớ sự thật, nhưng có thể khiến mô hình "học vẹt" và suy luận kém đi.

#AI #TríTuệNhânTạo #VLM #MachineLearning #HọcMáy #DataScience

reddit.com/r/LocalLLaMA/commen

2025-12-19

"Đội nhóm cần tìm VLM nhỏ, tinh chỉnh được, hoạt động tốt trên thiết bị địa phương, đặc biệt hiểu tốt biểu đồ. Đang cân nhắc Qwen3-VL-7B nhưng bị giới hạn tài nguyên (GPU 3090 duy nhất). Ai có kinh nghiệm chia sẻ! #VLM #AI #BiểuĐồ #HọcMáy #MachineLearning"

reddit.com/r/LocalLLaMA/commen

2025-12-12

Một nhà phát triển đang tìm cách hiệu quả nhất để phát hiện và xoay các trang tài liệu bị lệch (90/180 độ) trước khi đưa vào mô hình VLM cục bộ để phân tích. Tài liệu chủ yếu chứa văn bản và bảng biểu. Có giải pháp nào tối ưu không?

#VLM #DocumentProcessing #ImageRotation #AI #LocalLLaMA #XửLýTàiLiệu #XoayẢnh #TríTuệNhânTạo

reddit.com/r/LocalLLaMA/commen

2025-12-04

RAGLight vừa ra mắt tính năng mới: Xử lý PDF đa phương thức! Giờ đây, công cụ có thể trích xuất cả văn bản và hình ảnh từ PDF, dùng mô hình ngôn ngữ thị giác (VLM) để chú thích ảnh và đưa vào kho vector. Giúp RAG hiểu sâu hơn các biểu đồ, sơ đồ trong tài liệu kỹ thuật, nghiên cứu.
#RAGLight #MultimodalPDF #VLM #AI #TechNews #PDFProcessing #RAG #Ollama
#RAGLight #PDFĐaPhươngThức #VLM #AI #TinCôngNghệ #XửLýPDF

reddit.com/r/ollama/comments/1

The Hybrid Grouphybridgroup
2025-11-20

yzma 1.0 beta1 is out!

Use Go for hardware accelerated local inference with llama.cpp directly integrated into your applications. No external model servers or CGo.

Go get it right now!

github.com/hybridgroup/yzma

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst