#%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5

2025-12-08

Реализуем компьютерное зрение на практике

На тему компьютерного зрения есть множество различных публикаций, которые в основном рассказывают о применении этой технологии в разных отраслях. Однако, зачастую публикации содержат лишь общую информацию о том, что реализовано и для каких задач, но при этом отсутствует описание того, как это можно сделать. В нашей статье мы поговорим о том, как можно реализовать на Python навигационную систему на основе машинного зрения для автономных транспортных средств, проанализировать медицинские изображения и выполнить генерацию новых изображений из набора данных уже существующих.

habr.com/ru/companies/otus/art

#ai #computervision #ml #компьютерное_зрение #обработка_изображений #автономная_навигация #сегментация_изображений #генерация_изображений #нейронные_сети #глубокое_обучение

2025-12-06

От чертежей к реальности: как 3D-машинное зрение на ToF-камере научило робота брать двери с паллеты

На производстве мебели рутинная операция — разгрузка паллет с дверными полотнами перед ламинацией. Люди устают, допускают ошибки, а неаккуратная работа ведёт к сколам и убыткам. Мы решили автоматизировать процесс с помощью робота‑манипулятора. Главная сложность: научить машину точно находить и захватывать верхнюю дверь в стопке — даже если полотна разные по форме и размеру. В статье расскажем, как справились с задачей, используя всего одну ToF‑камеру и гибридный подход: сочетание 2D‑нейросети и 3D‑обработки данных. Узнаете, почему выбрали именно ToF, как преобразуем пиксели в миллиметры и как робот достигает точности в 1–2 мм при захвате.

habr.com/ru/articles/973032/

#компьютерное_зрение #машинное_обучение #робототехника #производительность #автоматизация_рутины #промышленная_автоматизация

2025-12-04

[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM

Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу

habr.com/ru/companies/otus/art

#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer

2025-11-29

[Перевод] Компилируем Python так, чтобы он работал везде

Это история о том, как написать компилятор Python, генерирующий оптимизированные ядра и при этом позволяющий сохранить простоту кода.

habr.com/ru/articles/971490/

#компилятор #pytorch #компьютерное_зрение #оптимизация #обработка_изображений

2025-11-27

Предопределённые векторы для обучения нейросетей с экономией памяти

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно. Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения. С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом. Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID. Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию. В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

habr.com/ru/companies/kryptoni

#нейросети #машинное_обучение #обучение_с_учителем #распознавание_лиц #распознавание_изображений #машинное_зрение #компьютерное_зрение #классификация_изображений

2025-11-24

Гречневая нейронка. Попытка закрыть национальный гештальт

Детекция мусора в гречке с помощью нейросети YOLO8n + попытки в real-time детекцию (Docker + FastApi, Gradio, TensorFlow Lite) + предложение добавить такую фичу в приложения продуктовых магазинов. За результатами приглашаю в статью.

habr.com/ru/articles/969676/

#компьютерное_зрение #mvp #yolo #продактменеджмент #еда #hugging_face

2025-11-21

Nano Banana Pro — почему это прорывная модель генерации и редактирования изображений? Проверяем на реальных примерах

20 ноября состоялся официальный

habr.com/ru/articles/968916/

#искусственный_интеллект #нейросети #генерация_изображений #генеративный_ии #nano_banana_pro #Gemini_3_Pro #текствизображение #редактирование_изображений #инфографика #компьютерное_зрение

2025-11-17

Сказ о том, как сделать самый большой флот автономных грузовиков в России с нуля…

Сегодня достаточно скачать с GitHub-a открытый стек автопилота, прикрутить пару камер или лидаров с AliExpress к небольшой электрической платформе, прокатить ее по парковке — и проект уже называют «автономным». Но заставить машину без водителя в реальных условиях выполнять задачи бизнеса, например, перевозить тонны груза в -30 °C и +50 °C, и, при этом, зарабатывать деньги — это совсем другая лига, где сходят с дистанции даже стартапы с сотнями миллионов долларов инвестиций. Я — Дмитрий Куликов, последние 2,5 года руковожу разработкой ПО в Evocargo. Мы с нуля разрабатываем, проектируем, производим и внедряем автономные электрогрузовики максимально высокого на сегодня серийно-эксплуатируемого уровня автономности. Уже 5 лет они работают на десятках коммерческих объектов по всей России. Как пробиться в лигу успешных проектов в автономном вождении, как мы приняли решение строить собственную платформу и почему Маск всё ещё не прав — расскажу в этой статье. К сказу...

habr.com/ru/companies/evocargo

#автономный_транспорт #автономная_логистика #грузоперевозки #компьютерное_зрение #искусственный_интеллект #машинное_обучениe #робототехника #инженерные_решения

2025-11-13

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

habr.com/ru/articles/965706/?u

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

2025-11-13

[Перевод] Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.

habr.com/ru/articles/965706/

#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений

2025-11-11

Как мы ускорили работу с исполнительной документацией с помощью ИИ

Привет, Хабр! Меня зовут Всеволод Зайковский, я заместитель руководителя проекта в «Газпром ЦПС». Есть рутинные задачи, которые отнимают много времени и трудовых ресурсов. В проектах, с которыми работала компания, такой задачей была каталогизация исполнительной документации. Кто не знает, что это такое, тому очень в жизни повезло исполнительная документация – это документы, которые подтверждают фактическое выполнение работ на стройке. Вырыли траншею? Составили акт. Закопали траншею? Составили акт – и так далее. В конце среднего размера стройки мы получаем десятки тысяч актов, протоколов и схем, которые нужно вручную разобрать, хорошо отсканировать и вручную разнести по нужным папка. А затем поиск нужного документа все равно превращается в монотонный квест на несколько часов.

habr.com/ru/companies/gazpromc

#ИИ #OCR #компьютерное_зрение #Tesseract #YOLO #Python #Автоматизация #документооборот #ML #строительство

2025-11-10

Если в кране нет воды… значит сработали моллюски

В Варшаве судьбу водопровода решают восемь моллюсков. Не инженеры, не лаборанты с пробирками, не автоматические анализаторы за миллионы злотых, а обычные речные беззубки размером с ладонь, выловленные в чистых водоемах. Они сидят в проточных резервуарах на главной насосной станции, фильтруют воду и... всё. Пока створки раковин открыты - два миллиона человек получают воду из кранов. Стоит моллюскам почуять что-то неладное и захлопнуться - подача автоматически блокируется по всему городу.

habr.com/ru/companies/beget/ar

#биосенсоры #биомониторинг #эволюция #технологии #экология #инженерия #канареечное_тестирование #компьютерное_зрение #безопасность #датчики

2025-11-07

Vision Lab: Сайт для удобной разметки и обучения моделей YOLO

Сегодня работа с искусственным интеллектом становится доступнее благодаря удобному инструментарию, упрощающему подготовку и обучение глубоких нейронных сетей. Одним из таких решений является проект Vision Lab — специализированный веб-сервис, созданный специально для разметки изображений и видеоданных, подготовки набора данных и последующего обучения на серверной инфраструктуре проекта.

habr.com/ru/articles/964192/

#компьютерное_зрение #обучение_нейронных_сетей #разметка_фотографий

2025-10-29

SmileFace. Когда нейросеть улыбается тебе в ответ

SmileFace — игра, в которой нейросеть угадывает эмоции Мы сделали интерактивный стенд: камера, смайлики и нейросеть, которая пытается распознать, что вы чувствуете. В статье — как это работает, с какими трудностями столкнулись и как запустить игру у себя. Улыбнуться ИИ

habr.com/ru/articles/961178/

#нейросеть #эмоции #распознавание_лиц #компьютерное_зрение #python #fastapi #opencv

2025-10-28

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач мультимодерации контента: как быстро и надёжно находить «взрослые» сцены в длинных видео и автоматически подсвечивать фрагменты для ручной проверки. Похожие кейсы регулярно встречаются и в открытых соревнованиях по ИИ (например, в подборке задач Wink AI Challenge на Codenrock).

habr.com/ru/articles/960952/

#Модерация_контента #Компьютерное_зрение #обработка_естественного_языка #аудиоанализ #машинное_обучение #YOLO #Whisper #Streamlit #гибридная_модерация #возрастной_рейтинг

2025-10-08

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам. Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

habr.com/ru/companies/magnus-t

#машинное_обучение #датасеты #наборы_данных #подборка_датасетов_для_ML #где_искать_датасет #обучение_моделей #компьютерное_зрение #обработка_естественного_языка #MLрепозитории #распознавание_речи

2025-09-21

Невизуальная доступность: опыт незрячего в использовании компьютерного зрения и LLM для взлома цифровых барьеров

С развитием LLM моделей AI начали появляться разные ИИ агенты, автоматизирующие задачи. Но есть задачи, типа рутинного создания папок в облаке или удаления файлов, которые хорошо бы автоматизировать, но ручками сделать можно. А есть задачи, где без дополнительной технической помощи никак. Сейчас я говорю например о тех, которые в связи с инвалидностью просто физически не могут осуществлять элементарные для большинства операции. Сегодня я вспомнил об этом посте моего незрячего знакомого Дениса Шишкина. Суть поста в том, что сегодня нейронные сети так популярны, а вещами, которые как ожидается могут быть простыми, но очень полезными для незрячих, никто не занимается. Пять минут разработки показали, что даже без AI возможно сделать достаточно много. Я решил попробовать сделать больше и написать эту статью, дабы осветить тему и поделиться своими наработками и размышлениями.

habr.com/ru/articles/949006/

#Программирование #Accessibility #Невизуальная_доступность #Компьютерное_зрение #NVDA #AI #LLM

2025-09-11

Случайный ИИ успех: Как мы встроили нейросеть в приложение для автосервисов и сорвали куш с подписками

Привет, чемпионы! Сегодня хочу разобрать на реальном примере, как иногда самые неочевидные идеи те, что в момент презентации заставляют тимлидов молча поправлять очки, а менеджеров ёрзать на стуле могут не просто выстрелить, а полностью перевернуть продукт. Это история не про гениальный прорыв, а скорее про настойчивость, готовность к экспериментам и немного удачи. Всё началось с того, что мы упёрлись в классический потолок роста в, казалось бы, совершенно непримечательной нише мобильном приложении для поиска и записи в автосервисы. У нас был стандартный, почти шаблонный продукт: каталог услуг со средними по рынку ценами, модуль онлайн записи, карта с геолокацией мастерских, даже отзывы и рейтинги. Всё как у людей. Но проблема была в том, что мы были как все. А в условиях, когда на каждом углу есть аналоги, конкуренция идёт не за функционал, а за доверие и внимание пользователя. Люди заходили, смотрели прайс, звонили в пару мест и уходили. Удержание было низким, монетизация ещё ниже. Нужен был крючок. Не просто ещё одна кнопка в интерфейсе, а что то, что давало бы мгновенную, осязаемую пользу и решало реальную боль. И вот на одной из планерок, где мы в очередной раз ломали голову над тем, как увеличить конверсию, я бросила: «А что, если сделать так, чтобы пользователь мог просто сфоткать свою проблему потёкшее масло, скрипящие тормоза, вмятину на бампере а мы ему примерно назовём поломку и прикинем, во сколько это выльется?». В комнате повисла тишина. Послышалось что то вроде «нейросеть?», «а обучающая выборка?», «а точность?», «юридические риски». Но решили взяться, так как я была уверена в бомбовом результате. И понеслась.

habr.com/ru/companies/datafeel

#ai #rag #rag_pipeline #nlp #автосервис #компьютерное_зрение #computervision #подписки #искуственный_интеллект #монетизация

2025-08-25

Как мы сделали робота-комплектовщика: от идеи до первого прототипа

Привет! Меня зовут Валерий Ильин, я руководитель сектора разработки мобильных роботов в Яндекс Роботикс. До недавнего времени в нашей линейке роботов отдельно жили мобильные роботы (робот‑инвентаризатор и робот‑тотоносец) и проекты на основе роборук (депалетизатор, пикер). Решения закрывали две основные операции на складе: перемещение товара и его отбор, но по отдельности. Идея объединить их и собрать робота, который закрывает обе операции, зрела в мыслях уже давно. Но прежде чем задумка воплотится в жизнь, ей нужно было созреть, набраться сил, а нам — опыта. В феврале 2025 года мы начали разработку автономного робота, который сможет делать всё, что делает человек‑комплектовщик, — только не уставая и в предсказуемом темпе. И сегодня я хочу рассказать о нашем роботе‑комплектовщике. Пока это только прототип, разработанный за 4,5 месяца, но у нас есть техническая концепция, которую мы планомерно реализуем. Под катом разберём, с какими ограничениями сталкивается классическая роботизация (стационарные роборуки, AMR‑ и FMR‑тележки), почему склады не готовы радикально менять процессы и как это повлияло на архитектуру решения. А ещё я покажу, как мы сделали локальное планирование на роботе, доработали софт мобильной платформы, а также добавили камеры и обработку глубины. В конце поделюсь промежуточными результатами и расскажу о наших планах — от стекинга до тестов на реальных складах.

habr.com/ru/companies/yandex/a

#tbd #tbdev #tbd_clash #склад #роботы #компьютерное_зрение #ml #автоматизация

2025-08-24

Создание технологий анализа фитопатологий с помощью гиперспектральной съемки

Недавно мы с командой посетили ряд производств томатов и выяснили, что в среднем время полного осмотра одной промышленной теплицы занимает неделю, при этом болезни могут распространяться за сутки. Решением этой проблемы может быть автоматизированный осмотр тепличного хозяйства. Развитие гиперспектральных технологий открывает новые возможности для неинвазивного мониторинга состояния растений: спектральные характеристики тканей позволяют выявлять скрытые признаки заболеваний на ранних стадиях, ещё до проявления внешних симптомов. Это делает гиперспектральную съёмку перспективным инструментом для создания автоматизированных систем анализа фитопатологий и внедрения их в практику точного земледелия. Вашему вниманию предоставлен материал, созданный командой ИППИ РАН, МФТИ и компанией РуСофт, который позволит читателю лучше узнать о технологиях, которые мы используем для регистрации и анализа спектральных характеристик растений, какие заболевания листьев видны в инфракрасном свете, и как с помощью этого узнать, когда надо собирать урожай. Подробности – под катом.

habr.com/ru/articles/940252/

#Гиперспектральная_фотография #фитопатология #компьютерное_зрение

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst