Lmst

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D .

https://habr.com/ru/companies/sberbank/articles/908820/

#генеративные_модели #3d #3dграфика #ml #kandinsky #computer_vision

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом. На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

https://habr.com/ru/companies/yandex/articles/904584/

#vlm #natural_language_processing #computer_vision #multimodality #яндекс

[Перевод] Всё про инференс на Sophon NPU

В этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. Я расскажу как они соотносятся с другими платами на рынке (Jetson, RockChip, Hailo, TI, etc.). Расскажу как подготовить сети для работы на платформах, покажу ограничения (что пока нельзя сделать, ограничения по скорости, и.т.д.).

https://habr.com/ru/companies/recognitor/articles/898152/

#Sophon #NPU #Jetson #RockChip #ML #Edge_Inference #Computer_Vision #LLM #VLM #Qwen

Silicon dojo is a great youtube channel to learn about #python and #computer_vision. Check out the MoonDream AI videos.
https://youtu.be/2xQG19-PvOI?si=r9gTNJD_lsfeyTYO

AI (Computer Vision) для реальной жизни (или кто для кого готов)

Профессия "плотник" полезна в обычной жизни, а что можно сказать о "программисте"? Когда государственной политикой является цифровизация, то правительство должно понимать: цифра она везде цифра! И в обычной жизни придется учитывать и такие истории. Но сначала, чтоб не тратить время "продвинутых" хабберчан, краткое резюме: 1. уровень технической информации = junior 2. стек = python, ultralytics, YOLO (различных версий) 3. тема = распознование объектов, обучение модели 4. социальная польза = забота об экологии в городе Москва История эта началась в нулевых, когда в очередной раз проходя мимо круга разворота автобусов, что находится у дома, я заплутал между громадного их количества, стоящих с включенными двигателями и чадящим прямо под окнами жителей. детали под катом

https://habr.com/ru/articles/895048/

#python #ultralytics #computer_vision #YOLOv12

Mask R-CNN 3D

Mask R-CNN 3D – это расширение знаменитой модели Mask R-CNN для работы с трехмерными данными (объёмными изображениями или облаками точек). Классическая Mask R-CNN предназначена для instance segmentation (сегментации отдельных объектов) на 2D-изображениях и состоит из двух основных частей: (1) сети предложений областей (Region Proposal Network, RPN) и (2) головы (Head) с несколькими выходными ветвями для классификации, регрессии ограничивающих рамок и сегментации масок . В версии 3D эта же концепция перенесена в трехмерное пространство. Входом модели Mask R-CNN 3D обычно является объёмный данных – например, медицинский 3D снимок (CT/MRI) размером (D×H×W) или облако точек, представляющее 3D-сцену. Backbone-сеть (обычно сверточная нейросеть типа ResNet) извлекает из входных данных многомасштабные признаки. В 3D версии backbone заменяет все 2D-операции (свертки, пулинг) на 3D-аналоги, позволяя обрабатывать объёмные данные напрямую. (Если 3D-данные заданы как облако точек, возможно предварительное преобразование, например, вокселизация пространства или проекция на несколько 2D-плоскостей – об этом подробнее в разделе 6.) Backbone формирует карты признаков – объёмные тензоры с пониженным разрешением, но содержащие высокоуровневую информацию о структуре объектов в сцене. Далее вступает Region Proposal Network (RPN) – небольшая сеть, скользящая по картам признаков и генерирующая набор предположительных объектов (region proposals) в виде ограничивающих 3D-рамок (прямоугольных параллелепипедов в координатах исходного объёма). RPN использует заранее заданные «якоря» (anchor boxes) – шаблонные 3D-боксы разных размеров и соотношений сторон, размещенные по всей карте признаков . Для каждого такого anchor RPN предсказывает два значения: объектность (есть объект/фон) и смещение рамки (на сколько нужно подвинуть и масштабировать anchor, чтобы точнее охватить объект). После этого выбираются топ-N наиболее перспективных предложений с помощью non-maximum suppression (NMS) – подавления пересекающихся рамок с меньшей оценкой.

https://habr.com/ru/articles/892892/

#python #pytorch3d #3d #computer_vision #cnn #mask_rcnn

Мир будущего: управление устройствами с помощью жестов

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег. Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.

https://habr.com/ru/companies/oleg-bunin/articles/891860/

#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #humancomputerinteraction

Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.

https://habr.com/ru/articles/890724/

#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet

Sometimes I wake up and remember a previous co-worker who asked me "can you tell me the angle of this camera compared to the driving direction of the vehicle within a 1/100th of a degree."

My mans, not even <insert deity of choice> could tell you that. :picardfacepalm:

#robotics #computer_vision

Virtual Ads или как прорекламировать Adidas в CS:GO

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising . В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

https://habr.com/ru/articles/889386/

#computer_vision #keypoint_detectors #opencv #компьютерное_зрение #рекламные_технологии #ai #computervision

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Датасет HaGRID , о котором мы писали в одном из постов , — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут ), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут , тут и тут ). Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M . Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M . Данные, код и предобученные модели можно найти в репозиториях HaGRID , dynamic gestures , а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M , HaGRID .

https://habr.com/ru/companies/sberdevices/articles/888896/

#data_mining #computer_vision #humancomputerinteraction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной. Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель. В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

https://habr.com/ru/companies/yandex/articles/886466/

#генеративные_модели #machine_learning #машинное_обучение #компьютерное_зрение #computer_vision #диффузионные_модели #diffusion_models #stable_diffusion #flux

Автоматизированное 3D-сегментирование зубов: Современные методы, вызовы и перспективы

1. Обзор проблемы Трёхмерная стоматологическая визуализация, в особенности конусно-лучевая компьютерная томография (КБКТ), стала ключевым инструментом в современной стоматологии для диагностики и планирования лечения ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). КБКТ обеспечивает получение высококачественной 3D-информации о зубах и окружающих костных структурах при меньшей дозе облучения по сравнению с медицинской КТ ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Это богатство информации позволяет проводить точное ортодонтическое планирование, моделировать ортогнатическую хирургию, планировать установку зубных имплантатов и выявлять патологические процессы ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ) ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Автоматизированная обработка 3D-сканов зубов (детекция, сегментация и классификация) имеет огромное значение – она может ускорить клинические процессы, повысить согласованность диагностики и облегчить создание 3D-печатных моделей или CAD/CAM-моделей для протезирования и хирургических навигационных систем. Например, точная сегментация зубов позволяет получить 3D-модели, которые помогают при навигации имплантатов и автотрансплантации зубов, повышая шансы на успех ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Кроме того, автоматизированный анализ может помочь в выявлении ретенированных или отсутствующих зубов и способствовать проведению виртуальных процедур (например, изготовлению кап, коррекции окклюзии), что подчеркивает практическую ценность цифровой стоматологии.

https://habr.com/ru/articles/886778/

#data_sciense #cnn #computer_vision #ai #3d_cnn #machine_learning #deep_learning

3D Pose Estimation объектов фиксированной геометрии для складских роботов

Привет, меня зовут Александр Тимофеев-Каракозов, я Senior ML/CV Engineer в Яндекс Роботикс. Я разрабатываю архитектуру ML-решений, обучаю нейросети для роботов и настраиваю MLOps, чтобы модели быстро адаптировались к новым складам и задачам. В этой статье я расскажу вам про нейросетевую жизнь складских роботов Яндекса и покажу, как один из них решает задачу 3D-локализации объектов в фиксированной геометрии.

https://habr.com/ru/companies/yandex/articles/886316/

#ml #mlops #computer_vision #robots

Postdoctoral Fellowships in Computer Vision, Khalifa University, UAE

Computer Science Department, Khalifa University

See the full job description on jobRxiv: https://jobrxiv.org/job/khalifa-university-27778-postdoctoral-felloships/?feed_id=92579

#computer_vision #deep_learning #ScienceJobs #hiring #research
https://jobrxiv.org/job/khalifa-university-27778-postdoctoral-felloships/?feed_id=92579

Управляем компьютером жестами: создаем систему бесконтактного взаимодействия с ПК

В основе проекта лежит компьютерное зрение и машинное обучение. Система использует веб-камеру для захвата изображения рук пользователя в реальном времени. Затем специально обученная нейронная сеть распознает конкретные жесты и преобразует их в команды управления компьютером. Проект полностью открыт и доступен на GitHub. Установка достаточно простая — нужен только Python 3 и несколько библиотек, которые устанавливаются через pip. Вся настройка сводится к выполнению пары команд в терминале.

https://habr.com/ru/articles/884854/

#python #жесты #нейросети #компьютерное_зрение #computer_vision #user_interfaces

МРТ для DataScience. Часть 8

Продолжаем разбираться со особенностями МРТ-данных для обучения нейронных сетей. Сегодня рассмотрим некоторые подходы к препроцессинту и аугментации таких изображений. Содержание и первые части цикла статей здесь .

https://habr.com/ru/articles/883526/

#Computer_Vision #медицинская_визуализация #медицинские_данные #мрт

МРТ для DataScience. Часть 7

Продолжаем изучать МРТ-данные с точки зрения Data Science. Сегодня рассмотрим алгоритм выбора конкретной серии изображений для обучения и инференса нейронных сетей. Содержание и первые части цикла статей здесь .

https://habr.com/ru/articles/883484/

#Computer_Vision #медицинская_визуализация #медицинские_данные #мрт

Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента

Привет! Меня зовут Владимир Морозов, я старший дата-сайентист в отделе автоматической модерации Авито . Раньше мы блокировали объявления, которые нарушают правила публикации, а теперь исправляем — с помощью ML-системы. Так мы сохраняем количество контента, сокращаем стоимость модерации и улучшаем пользовательский опыт. В статье подробно расскажу обо всех этапах внедрения новой ML-механики: от идеи и исследования подходов до оптимизации нейронок и вывода в продакшен.

https://habr.com/ru/companies/avito/articles/882572/

#machine_learning #computer_vision #inpainting #ai #data_science #ml #python #moderation #image_processing #blur

МРТ для DataScience. Часть 6

Продолжаем изучать МРТ-данные с точки зрения Data Science. Сегодня поговорим о некоторых питоновских библиотеках для обработки МРТ-изображений и их метаданных: SimpleITK, PyDicom, PyNrrd, MONAI. Содержание и первые части цикла статей здесь .

https://habr.com/ru/articles/882562/

#Computer_Vision #медицинская_визуализация #медицинские_данные #мрт

#Computer_Vision

Client Info