Multimodal Vision Intelligence with .NET MAUI
https://devblogs.microsoft.com/dotnet/multimodal-vision-intelligence-with-dotnet-maui/
#microsoft #NET #NET_MAUI #AI #ai_foundry #computer_vision #copilot
Multimodal Vision Intelligence with .NET MAUI
https://devblogs.microsoft.com/dotnet/multimodal-vision-intelligence-with-dotnet-maui/
#microsoft #NET #NET_MAUI #AI #ai_foundry #computer_vision #copilot
Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото
Всем привет! Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг полноценного 6Dof видео . Большинство существующих решений сводятся к двум крупным направлениям. В этой статье мы рассмотрим, как расширить возможности генеративных моделей для виртуальной реальности (VR), создав модуль для ComfyUI, который позволит: преобразовывать изображения и видео между pinhole , fisheye и equirectangular проекциями; итеративно дорисовывать панорамы до полного сферического охвата; синтезировать новые ракурсы свободным движением камеры в 3‑D‑пространстве. Я покажy, как объединить продвинутый reprojection grid_sample с outoainting, картами глубины и облаками точек, чтобы получить реалистичные «новые виды» из одного изображения. Кроме того совместим этот подход с подходом Video Generation
Free Gaussian Primitives at Anytime Anywhere for Dynamic Scene Reconstruction
https://zju3dv.github.io/freetimegs/
#ycombinator #Computer_Vision #Computer_Graphics #NeRF #3D_Gaussian_Splatting #Novel_View_Synthesis #Freeviewpoint_Video
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!
https://habr.com/ru/companies/sberbank/articles/915760/
#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning
Vision Language Models Are Biased
https://vlmsarebiased.github.io/
#ycombinator #VLM #Vision_Language_Models #Bias #Computer_Vision #Counting
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2
Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное. Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.
https://habr.com/ru/articles/912522/
#computer_vision #нейросети #ml #video_generation #собеседования #stablediffusion #wan21 #comfyui #видеогенератор
Генерация видео: Обзор интересных подходов | Text-2-video | Part 1
План следующий: Методы адаптации T2I в T2V : AnimateDiff, Text2Video Zero Обзор классических подходов : Stable Video Diffusion, CogVideo Новые модельки 2025 : Wan2.1, HunyuanVideo, FramePack Это первая часть из списка статей, тут будет только про T2I в T2V
https://habr.com/ru/articles/910326/
#computer_vision #нейросети #ml #video_generation #собеседования #собеседования_задачи #ai #stable_diffusion #comfyui #animatediff
Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна
Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D .
https://habr.com/ru/companies/sberbank/articles/908820/
#генеративные_модели #3d #3dграфика #ml #kandinsky #computer_vision
Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса
Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.
https://habr.com/ru/companies/yandex/articles/904584/
#vlm #natural_language_processing #computer_vision #multimodality #яндекс
[Перевод] Всё про инференс на Sophon NPU
В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).
https://habr.com/ru/companies/recognitor/articles/898152/
#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen
Silicon dojo is a great youtube channel to learn about #python and #computer_vision. Check out the MoonDream AI videos.
https://youtu.be/2xQG19-PvOI?si=r9gTNJD_lsfeyTYO
AI (Computer Vision) для реальной жизни (или кто для кого готов)
Профессия "плотник" полезна в обычной жизни, а что можно сказать о "программисте"? Когда государственной политикой является цифровизация, то правительство должно понимать: цифра она везде цифра! И в обычной жизни придется учитывать и такие истории. Но сначала, чтоб не тратить время "продвинутых" хабберчан, краткое резюме: 1. уровень технической информации = junior 2. стек = python, ultralytics, YOLO (различных версий) 3. тема = распознование объектов, обучение модели 4. социальная польза = забота об экологии в городе Москва История эта началась в нулевых, когда в очередной раз проходя мимо круга разворота автобусов, что находится у дома, я заплутал между громадного их количества, стоящих с включенными двигателями и чадящим прямо под окнами жителей. детали под катом
Mask R-CNN 3D
Mask R-CNN 3D – это расширение знаменитой модели Mask R-CNN для работы с трехмерными данными (объёмными изображениями или облаками точек). Классическая Mask R-CNN предназначена для instance segmentation (сегментации отдельных объектов) на 2D-изображениях и состоит из двух основных частей: (1) сети предложений областей (Region Proposal Network, RPN) и (2) головы (Head) с несколькими выходными ветвями для классификации, регрессии ограничивающих рамок и сегментации масок . В версии 3D эта же концепция перенесена в трехмерное пространство. Входом модели Mask R-CNN 3D обычно является объёмный данных – например, медицинский 3D снимок (CT/MRI) размером (D×H×W) или облако точек, представляющее 3D-сцену. Backbone-сеть (обычно сверточная нейросеть типа ResNet) извлекает из входных данных многомасштабные признаки. В 3D версии backbone заменяет все 2D-операции (свертки, пулинг) на 3D-аналоги, позволяя обрабатывать объёмные данные напрямую. (Если 3D-данные заданы как облако точек, возможно предварительное преобразование, например, вокселизация пространства или проекция на несколько 2D-плоскостей – об этом подробнее в разделе 6.) Backbone формирует карты признаков – объёмные тензоры с пониженным разрешением, но содержащие высокоуровневую информацию о структуре объектов в сцене. Далее вступает Region Proposal Network (RPN) – небольшая сеть, скользящая по картам признаков и генерирующая набор предположительных объектов (region proposals) в виде ограничивающих 3D-рамок (прямоугольных параллелепипедов в координатах исходного объёма). RPN использует заранее заданные «якоря» (anchor boxes) – шаблонные 3D-боксы разных размеров и соотношений сторон, размещенные по всей карте признаков . Для каждого такого anchor RPN предсказывает два значения: объектность (есть объект/фон) и смещение рамки (на сколько нужно подвинуть и масштабировать anchor, чтобы точнее охватить объект). После этого выбираются топ-N наиболее перспективных предложений с помощью non-maximum suppression (NMS) – подавления пересекающихся рамок с меньшей оценкой.
Мир будущего: управление устройствами с помощью жестов
Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег. Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.
https://habr.com/ru/companies/oleg-bunin/articles/891860/
#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #humancomputerinteraction
Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей
Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.
https://habr.com/ru/articles/890724/
#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet
Sometimes I wake up and remember a previous co-worker who asked me "can you tell me the angle of this camera compared to the driving direction of the vehicle within a 1/100th of a degree."
My mans, not even <insert deity of choice> could tell you that. :picardfacepalm:
Virtual Ads или как прорекламировать Adidas в CS:GO
Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising . В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.
https://habr.com/ru/articles/889386/
#computer_vision #keypoint_detectors #opencv #компьютерное_зрение #рекламные_технологии #ai #computervision
HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Датасет HaGRID , о котором мы писали в одном из постов , — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут ), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут , тут и тут ). Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M . Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M . Данные, код и предобученные модели можно найти в репозиториях HaGRID , dynamic gestures , а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M , HaGRID .
https://habr.com/ru/companies/sberdevices/articles/888896/
#data_mining #computer_vision #humancomputerinteraction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection
От каскадных моделей до картинок в 4к: как эволюционировали диффузионки
На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной. Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель. В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.
https://habr.com/ru/companies/yandex/articles/886466/
#генеративные_модели #machine_learning #машинное_обучение #компьютерное_зрение #computer_vision #диффузионные_модели #diffusion_models #stable_diffusion #flux
Автоматизированное 3D-сегментирование зубов: Современные методы, вызовы и перспективы
1. Обзор проблемы Трёхмерная стоматологическая визуализация, в особенности конусно-лучевая компьютерная томография (КБКТ), стала ключевым инструментом в современной стоматологии для диагностики и планирования лечения ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). КБКТ обеспечивает получение высококачественной 3D-информации о зубах и окружающих костных структурах при меньшей дозе облучения по сравнению с медицинской КТ ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Это богатство информации позволяет проводить точное ортодонтическое планирование, моделировать ортогнатическую хирургию, планировать установку зубных имплантатов и выявлять патологические процессы ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ) ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Автоматизированная обработка 3D-сканов зубов (детекция, сегментация и классификация) имеет огромное значение – она может ускорить клинические процессы, повысить согласованность диагностики и облегчить создание 3D-печатных моделей или CAD/CAM-моделей для протезирования и хирургических навигационных систем. Например, точная сегментация зубов позволяет получить 3D-модели, которые помогают при навигации имплантатов и автотрансплантации зубов, повышая шансы на успех ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Кроме того, автоматизированный анализ может помочь в выявлении ретенированных или отсутствующих зубов и способствовать проведению виртуальных процедур (например, изготовлению кап, коррекции окклюзии), что подчеркивает практическую ценность цифровой стоматологии.
https://habr.com/ru/articles/886778/
#data_sciense #cnn #computer_vision #ai #3d_cnn #machine_learning #deep_learning