#VLM

2025-04-30

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.

habr.com/ru/articles/905984/

#ии #VLM #LLM #игры

2025-04-29

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

habr.com/ru/companies/yandex/a

#vlm #natural_language_processing #computer_vision #multimodality #яндекс

CSBJcsbj
2025-04-15

🧬 Could AI deliver skin cancer diagnoses with the clarity and reasoning of a dermatologist?

🔗 A two-step concept-based approach for enhanced interpretability and trust in skin lesion diagnosis. DOI: doi.org/10.1016/j.csbj.2025.02

📚 CSBJ Smart Hospital: csbj.org/smarthospital

A two-step concept-based approach for enhanced interpretability and trust in skin lesion diagnosis. Computational and Structural Biotechnology Journal, DOI: https://doi.org/10.1016/j.csbj.2025.02.013
2025-04-10

[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

habr.com/ru/companies/recognit

#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen

Hacker Newsh4ckernews
2025-03-21

SmolDocling: An ultra-compact VLM for end-to-end multi-modal document conversion

arxiv.org/abs/2503.11576

GripNewsGripNews
2025-02-26

🌘 VLM執行食譜展示
➤ GitHub VLM執行食譜的功能介紹
github.com/vlm-run/vlmrun-cook
本文介紹了GitHub上VLM執行食譜的相應notebook,涵蓋多個功能,並提供各種自動化工作流程的框架。文中提到GitHub的安全性、開發工具及社區合作等主題,強調開源開發的重要性。
+ 這篇文章真是幫助我瞭解VLM的各種功能,非常有用!
+ 我非常喜歡開源開發的理念,希望能看到更多相關的資源和工具介紹。

王永帥🍥yongshuai1013
2025-02-23

一個穩定有良好泛化能力的R1風格視覺語言模型:VLM-R1,把DeepSeek的R1方法用到了視覺上模型上,增強了模型穩定性和泛化能力

基於Qwen2.5-VL 構建,能同時處理圖像和文本輸入,特別強化了對圖像中特定目標的定位能力

擅長指代表達類理解,比如"這個紅色的杯子在哪裡"這樣的問題,並在圖像中定位目標

專案地址: github.com/om-ai-lab/VLM-R1

@gilesgoat @llamasoft_ox is the #VLM a library you use between multiple games? How much relation does it have to the original Trip-a-Tron I played with on my #atarist?

2025-02-10
Pensée du 41ème jour, 10 février

Une goutte d'eau

Ce monde,
À quoi le comparer ?
À la goutte qui tombe
Du bec de l'oiseau d'eau
Et réfléchit le clair de lune. ~ Dōgen Zenji

Fugacité du monde. Fugacité de la vie de cet être conscient qui perçoit le monde. L'existence en ce monde comme la goutte d'eau qui vient tomber du bec d'un héron et qui s'en va rejoindre l'étang, le conglomérat de toutes les gouttes d'eau. Et dans cette chute qui ne dure que quelques instants, le reflet de la lune habite la transparence de la goutte d'eau.

Notre existence peut sembler infinitésimale tant dans l'espace et dans le temps. Pour autant, elle peut refléter la lumière de l'Éveil.

Ne plus être cette seule goutte prise dans les turbulences de la chute, mais être l'étang et l'oiseau d'eau qui contemple le grand calme de l'étang dans l'aube brumeuse.
.
.
.
[D'après Bai Wenshu]
.
#pensée #penséedujour #penséepositive #bienveillance #inspiration #optimisme #citation #philosophie #calme #contemplation #immobilite #zazen #meditation #Montpellier #VLM #photo #art #philosophy
王永帥🍥yongshuai1013
2025-02-03

R1-V,不到3美元就可以訓練出一個視覺語言模型的方法,一個2B的模型在100個訓練步驟後,在OOD中超過了72B的模型

R1-V主要透過強化學習來提升視覺語言模型的泛化能力,其在8塊A100 GPU上進行訓練,耗時30分鐘,總成本為2.62美元

專案地址: github.com/Deep-Agent/R1-V

John Leonardjohnleonard
2025-01-24

Hugging Face has introduced two new models in its SmolVLM series, which it claims are the smallest Vision Language Models (VLMs) to date.

computing.co.uk/news/2025/ai/h

2025-01-20

Обработка каталога и товаров на LLM

Существует классическая проблема на любой электронной торговой площадке, связанная с тем, как категоризировать и понять описания товаров. Особенно она усугубляется тем, что пользователи создают запутанные описания даже для самых простых продуктов. Например, обычная синяя футболка может быть описана как небесно-голубая или даже тёмно-сине-аквамариновая. Что могут предложить современные LLM и VLM для решения проблемы?

habr.com/ru/companies/raft/art

#llm #vlm #маркетплейс #matching

2025-01-20

Обработка и сравнение товаров маркетплейсов на LLM

Существует классическая проблема на любой электронной торговой площадке, связанная с тем, как категоризировать и понять описания товаров. Особенно она усугубляется тем, что пользователи создают запутанные описания даже для самых простых продуктов. Например, обычная синяя футболка может быть описана как небесно-голубая или даже тёмно-сине-аквамариновая. Что могут предложить современные LLM и VLM для решения проблеммы?

habr.com/ru/companies/raft/art

#маркетплейс #llm #vlm #анализ_товаров #matching

DACBARBOS Branddacbarbos
2025-01-07
marmelabmarmelab
2024-12-10

🤗 Check out HuggingFace's latest vision model👇

SmolVLM: a small Vision Language Model which is fast 🏎️, memory efficient 🧠 & fully open-source🔓!

SmolVLM brings high-performance image & text processing with minimal GPU needs, cutting costs for businesses.

huggingface.co/blog/smolvlm

2024-11-21

Breakthrough in Visual Language Models and Reasoning 🧠

🔍 #LLaVAo1 pioneers systematic visual reasoning capabilities:
• First #VLM to implement spontaneous step-by-step analysis like #GPT4
• New 11B model surpasses #Gemini15pro & #Llama32 performance
• Excels on 6 multimodal benchmark tests
• Breaks down complex problems into structured analysis stages

🎯 Key Features:
• Problem outline creation
• Image information interpretation
• Sequential reasoning process
• Evidence-based conclusions
• Handles science & reasoning challenges

💡 Technical Specs:
• Based on #opensource architecture
• Pretrained weights available on #HuggingFace
• 11B parameter model size
• Supports multiple reasoning domains

📚 Paper available: arxiv.org/abs/2411.10440
🔗 Project repository: github.com/PKU-YuanGroup/LLaVA

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst