#VLM

2025-06-10

Какая GPT-модель лучше распознаёт аннотации книг?

Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное тестирование 28 моделей от Anthropic, Google, Meta, Mistral AI, OpenAI, Qwen и попытаемся ответить на эти вопросы не написав ни одной строчки кода самостоятельно.

habr.com/ru/articles/917070/

#VLM #Gemini #ChatGPT #anthropic #mistral #llama #openai #vibecoding #qwen #сравнение

2025-06-04

VLMs don't actually "see" - they rely on memorized knowledge instead of visual analysis due to bias (e.g. knowing that the Adidas logo has 3 stripes and a dog has 4 legs) vlmsarebiased.github.io/

#AI #GenAI #LLM #VLM

2025-05-28

Как ИИ научился думать картинками

Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным. Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

habr.com/ru/articles/913718/

#ИИ #Агент #LLM #VLM #языковая_модель

2025-05-22

ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей

Привет Хабр! Это научный дайджест и сегодня на нашем столе: - ИИ генерирует устройства в области оптики, и они выходят даже лучше чем то что делают ручками - Учёные представили UAV-CodeAgents — систему планирования миссий БПЛА, где дроны управляются через LLM и VLM - LLM, взаимодействуя между собой, начинают вести себя… как общества людей

habr.com/ru/articles/911924/

#ии #дроны #оптика #социология #llm #llmмодели #vlm

2025-05-21

VLM против вмятин: Как нейросети оценивают повреждения авто по фото

Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект? Всем привет! Меня зовут Константин Розанов, DS в RnD отделе Raft и в этой статье я сравниваю, как современные VLM-модели (GPT Vision, Gemini, Qwen и др.) определяют повреждения автомобиля по фото: замечают ли они вмятины, отличают ли грязь от трещины, и какая из них ближе всего к эксперту из СТО.

habr.com/ru/companies/raft/art

#блог_компании_raft #искусственный_интеллект #мультимодальные_модели #машинное_обучение #vlm #llm

2025-04-30

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.

habr.com/ru/articles/905984/

#ии #VLM #LLM #игры

2025-04-29

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

habr.com/ru/companies/yandex/a

#vlm #natural_language_processing #computer_vision #multimodality #яндекс

CSBJcsbj
2025-04-15

🧬 Could AI deliver skin cancer diagnoses with the clarity and reasoning of a dermatologist?

🔗 A two-step concept-based approach for enhanced interpretability and trust in skin lesion diagnosis. DOI: doi.org/10.1016/j.csbj.2025.02

📚 CSBJ Smart Hospital: csbj.org/smarthospital

A two-step concept-based approach for enhanced interpretability and trust in skin lesion diagnosis. Computational and Structural Biotechnology Journal, DOI: https://doi.org/10.1016/j.csbj.2025.02.013
2025-04-10

[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

habr.com/ru/companies/recognit

#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen

Hacker Newsh4ckernews
2025-03-21

SmolDocling: An ultra-compact VLM for end-to-end multi-modal document conversion

arxiv.org/abs/2503.11576

GripNewsGripNews
2025-02-26

🌘 VLM執行食譜展示
➤ GitHub VLM執行食譜的功能介紹
github.com/vlm-run/vlmrun-cook
本文介紹了GitHub上VLM執行食譜的相應notebook,涵蓋多個功能,並提供各種自動化工作流程的框架。文中提到GitHub的安全性、開發工具及社區合作等主題,強調開源開發的重要性。
+ 這篇文章真是幫助我瞭解VLM的各種功能,非常有用!
+ 我非常喜歡開源開發的理念,希望能看到更多相關的資源和工具介紹。

王永帥🍥yongshuai1013
2025-02-23

一個穩定有良好泛化能力的R1風格視覺語言模型:VLM-R1,把DeepSeek的R1方法用到了視覺上模型上,增強了模型穩定性和泛化能力

基於Qwen2.5-VL 構建,能同時處理圖像和文本輸入,特別強化了對圖像中特定目標的定位能力

擅長指代表達類理解,比如"這個紅色的杯子在哪裡"這樣的問題,並在圖像中定位目標

專案地址: github.com/om-ai-lab/VLM-R1

@gilesgoat @llamasoft_ox is the #VLM a library you use between multiple games? How much relation does it have to the original Trip-a-Tron I played with on my #atarist?

2025-02-10
Pensée du 41ème jour, 10 février

Une goutte d'eau

Ce monde,
À quoi le comparer ?
À la goutte qui tombe
Du bec de l'oiseau d'eau
Et réfléchit le clair de lune. ~ Dōgen Zenji

Fugacité du monde. Fugacité de la vie de cet être conscient qui perçoit le monde. L'existence en ce monde comme la goutte d'eau qui vient tomber du bec d'un héron et qui s'en va rejoindre l'étang, le conglomérat de toutes les gouttes d'eau. Et dans cette chute qui ne dure que quelques instants, le reflet de la lune habite la transparence de la goutte d'eau.

Notre existence peut sembler infinitésimale tant dans l'espace et dans le temps. Pour autant, elle peut refléter la lumière de l'Éveil.

Ne plus être cette seule goutte prise dans les turbulences de la chute, mais être l'étang et l'oiseau d'eau qui contemple le grand calme de l'étang dans l'aube brumeuse.
.
.
.
[D'après Bai Wenshu]
.
#pensée #penséedujour #penséepositive #bienveillance #inspiration #optimisme #citation #philosophie #calme #contemplation #immobilite #zazen #meditation #Montpellier #VLM #photo #art #philosophy
王永帥🍥yongshuai1013
2025-02-03

R1-V,不到3美元就可以訓練出一個視覺語言模型的方法,一個2B的模型在100個訓練步驟後,在OOD中超過了72B的模型

R1-V主要透過強化學習來提升視覺語言模型的泛化能力,其在8塊A100 GPU上進行訓練,耗時30分鐘,總成本為2.62美元

專案地址: github.com/Deep-Agent/R1-V

John Leonardjohnleonard
2025-01-24

Hugging Face has introduced two new models in its SmolVLM series, which it claims are the smallest Vision Language Models (VLMs) to date.

computing.co.uk/news/2025/ai/h

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst