Lmst

Какая GPT-модель лучше распознаёт аннотации книг?

Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное тестирование 28 моделей от Anthropic, Google, Meta, Mistral AI, OpenAI, Qwen и попытаемся ответить на эти вопросы не написав ни одной строчки кода самостоятельно.

https://habr.com/ru/articles/917070/

#VLM #Gemini #ChatGPT #anthropic #mistral #llama #openai #vibecoding #qwen #сравнение

VLMs don't actually "see" - they rely on memorized knowledge instead of visual analysis due to bias (e.g. knowing that the Adidas logo has 3 stripes and a dog has 4 legs) https://vlmsarebiased.github.io/

#AI #GenAI #LLM #VLM

Vision Language Models Are Biased
https://vlmsarebiased.github.io/
#ycombinator #VLM #Vision_Language_Models #Bias #Computer_Vision #Counting

Как ИИ научился думать картинками

Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным. Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

https://habr.com/ru/articles/913718/

#ИИ #Агент #LLM #VLM #языковая_модель

ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей

Привет Хабр! Это научный дайджест и сегодня на нашем столе: - ИИ генерирует устройства в области оптики, и они выходят даже лучше чем то что делают ручками - Учёные представили UAV-CodeAgents — систему планирования миссий БПЛА, где дроны управляются через LLM и VLM - LLM, взаимодействуя между собой, начинают вести себя… как общества людей

https://habr.com/ru/articles/911924/

#ии #дроны #оптика #социология #llm #llmмодели #vlm

VLM против вмятин: Как нейросети оценивают повреждения авто по фото

Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект? Всем привет! Меня зовут Константин Розанов, DS в RnD отделе Raft и в этой статье я сравниваю, как современные VLM-модели (GPT Vision, Gemini, Qwen и др.) определяют повреждения автомобиля по фото: замечают ли они вмятины, отличают ли грязь от трещины, и какая из них ближе всего к эксперту из СТО.

https://habr.com/ru/companies/raft/articles/911434/

#блог_компании_raft #искусственный_интеллект #мультимодальные_модели #машинное_обучение #vlm #llm

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.

https://habr.com/ru/articles/905984/

#ии #VLM #LLM #игры

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

https://habr.com/ru/companies/yandex/articles/904584/

#vlm #natural_language_processing #computer_vision #multimodality #яндекс

#BCC270 – Em sigilo, Ministério da Defesa coloca mais R$ 154 milhões e 13 anos de prazo no VLM

https://fed.brid.gy/r/https://sindct.org.br/sindct/comunicacao/tv-sindct/bcc270-em-sigilo-ministerio-da-defesa-coloca-mais-r-154-milhoes-e-13-anos-de-prazo-no-vlm/?utm_source=rss&utm_medium=rss&utm_campaign=bcc270-em-sigilo-ministerio-da-defesa-coloca-mais-r-154-milhoes-e-13-anos-de-prazo-no-vlm

🧬 Could AI deliver skin cancer diagnoses with the clarity and reasoning of a dermatologist?

🔗 A two-step concept-based approach for enhanced interpretability and trust in skin lesion diagnosis. DOI: https://doi.org/10.1016/j.csbj.2025.02.013

📚 CSBJ Smart Hospital: https://www.csbj.org/smarthospital

#AIinHealthcare #ExplainableAI #SkinCancer #VLM #LLM #MedicalAI #TrustworthyAI #Dermatology #XAI #PrecisionMedicine

A two-step concept-based approach for enhanced interpretability and trust in skin lesion diagnosis. Computational and Structural Biotechnology Journal, DOI: https://doi.org/10.1016/j.csbj.2025.02.013

[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

https://habr.com/ru/companies/recognitor/articles/898152/

#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen

#artificialintelligence #vlm #surveillance #surveillancecapitalism #privacy

https://www.aclu-or.org/en/news/machine-surveillance-being-super-charged-large-ai-models

SmolDocling: An ultra-compact VLM for end-to-end multi-modal document conversion

https://arxiv.org/abs/2503.11576

#HackerNews #SmolDocling #VLM #documentconversion #multimodal #AI

🌘 VLM執行食譜展示
➤ GitHub VLM執行食譜的功能介紹
✤ https://github.com/vlm-run/vlmrun-cookbook/blob/main/notebooks/01_schema_showcase.ipynb
本文介紹了GitHub上VLM執行食譜的相應notebook，涵蓋多個功能，並提供各種自動化工作流程的框架。文中提到GitHub的安全性、開發工具及社區合作等主題，強調開源開發的重要性。
+ 這篇文章真是幫助我瞭解VLM的各種功能，非常有用！
+ 我非常喜歡開源開發的理念，希望能看到更多相關的資源和工具介紹。
#GitHub #VLM #軟體開發

Satellite Data Study Pinpoints Areas Sinking And Rising Along California Coast
--
https://phys.org/news/2025-02-satellite-areas-california-coast.html <-- shared technical article
--
https://dx.doi.org/10.1126/sciadv.ads8163 <-- shared paper
--
#GIS #spatial #mapping #sealevel #sealevelrise #subsidence #model #modeling #SLR #coast #coastline #verticallandmotion #VLM #California #climatechange #planning #policy #remotesensing #groundwater #pumping #risk #hazard #infrastructure #damage #wastewater #injection #tidegauge #dynamic #spatialanalysis #spatiotemporal #numericmodeling #uplift #projections #flood #flooding #mitigation #satellite #ocean #marine
@nasa

photo - Pfeiffer Beach at Big Sur, California, USA

maps - Vertical Land Motion (VLM) with uncertainties, California

maps & charts - Variable VLM along the California coasts, with hot spots

maps & charts - Local versus regional VLM projections in 2050, California

#開源分享一個穩定有良好泛化能力的R1風格視覺語言模型：VLM-R1，把DeepSeek的R1方法用到了視覺上模型上，增強了模型穩定性和泛化能力

基於Qwen2.5-VL 構建，能同時處理圖像和文本輸入，特別強化了對圖像中特定目標的定位能力

擅長指代表達類理解，比如"這個紅色的杯子在哪裡"這樣的問題，並在圖像中定位目標

專案地址： github.com/om-ai-lab/VLM-R1

#VLM #deepseekr1vlm #VLMR1

@gilesgoat @llamasoft_ox is the #VLM a library you use between multiple games? How much relation does it have to the original Trip-a-Tron I played with on my #atarist?

Pensée du 41ème jour, 10 février

Une goutte d'eau

Ce monde,
À quoi le comparer ?
À la goutte qui tombe
Du bec de l'oiseau d'eau
Et réfléchit le clair de lune. ~ Dōgen Zenji

Fugacité du monde. Fugacité de la vie de cet être conscient qui perçoit le monde. L'existence en ce monde comme la goutte d'eau qui vient tomber du bec d'un héron et qui s'en va rejoindre l'étang, le conglomérat de toutes les gouttes d'eau. Et dans cette chute qui ne dure que quelques instants, le reflet de la lune habite la transparence de la goutte d'eau.

Notre existence peut sembler infinitésimale tant dans l'espace et dans le temps. Pour autant, elle peut refléter la lumière de l'Éveil.

Ne plus être cette seule goutte prise dans les turbulences de la chute, mais être l'étang et l'oiseau d'eau qui contemple le grand calme de l'étang dans l'aube brumeuse.
.
.
.
[D'après Bai Wenshu]
.
#pensée #penséedujour #penséepositive #bienveillance #inspiration #optimisme #citation #philosophie #calme #contemplation #immobilite #zazen #meditation #Montpellier #VLM #photo #art #philosophy