New article on my website: Focus measurement in digital photography
New article on my website: Focus measurement in digital photography
Как мы построили систему видеоаналитики на open source и довели её до продакшена
Всем привет, я Иван, продакт-менеджер. В этой статье разберу практический опыт построения системы видеоаналитики на базе open source-инструментов: от выбора библиотек и архитектуры до проблем с производительностью и масштабированием под десятки видеопотоков. Материал будет полезен инженерам, тимлидам и продакт-менеджерам и всем тем, кто рассматривает open source как основу для production-ready CV-систем.
https://habr.com/ru/articles/981268/
#видеоаналитика #computer_vision #YOLO #PyTorch #MLOps #cv #opensource
RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков
Мы в Контуре собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи.
https://habr.com/ru/companies/skbkontur/articles/977798/
#ии #датасет #дипфейк #видео #сезон_ии_в_разработке #computer_vision #machine_learning
Logos AI Assistant — полноценный ИИ-агент для вашего десктопа
Logos AI Assistant — это не просто инструмент для автоматизации, это ваш творческий и исполнительный партнёр для решения широкого круга задач прямо на рабочем столе. Он обладает всеми возможностями продвинутых ИИ-ассистентов, таких как Gemini CLI: может писать код, создавать и редактировать тексты, работать с файлами и выполнять сложные команды в терминале. Но Logos идёт гораздо дальше. Его ключевое преимущество — это выход за пределы командной строки. Благодаря движку компьютерного зрения OmniParser, ассистент получает «глаза», а через управление мышью и клавиатурой — «руки». Это фундаментально расширяет перечень решаемых задач. Теперь LLM не ограничена файловой системой и терминалом; она может работать внутри любого графического приложения на вашем компьютере.
https://habr.com/ru/articles/973332/
#Logos_AI_Assistant #ai_agent #automatization #llm #computer_vision #omniparse #pyside6 #crossplatform #terminal #gui
[Перевод] Визуально-языковые модели: следующий шаг эволюции LLM
Компьютерное зрение больше не живёт отдельно от языковых моделей: визуальные энкодеры, контрастивные лоссы и cross-attention становятся стандартной «обвязкой» вокруг LLM, которые учатся понимать изображения, видео и сложные сцены. В статье разбираются основные архитектуры визуально-языковых моделей, подходы к обучению на парах «изображение–текст», переход к динамическому разрешению и сжатию видеотокенов — то, как классическое CV переупаковывается в мультимодальные системы нового поколения. Перейти к материалу
https://habr.com/ru/companies/otus/articles/973180/
#Computer_Vision #CV #Машинное_обучение #Нейросети #компьютерное_зрение #визуальноязыковые_модели #мультимодальность #визуальные_энкодеры #обучение_модели #Vision_Transformer
Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing
Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один “хороший и легкий”, но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.
https://habr.com/ru/companies/tevian/articles/972064/
#liveness_detection #computer_vision #обучение_нейросетей #ии #иимодель
Сравнительный анализ 18 LLM моделей: конец монополии?
🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025? Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов. Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude. MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.
https://habr.com/ru/articles/971864/
#llm #языковые_модели #nlp #сравнение_llm #data_science #ai #python #opensource #computer_vision #обзор
Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO
Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:
https://habr.com/ru/articles/968626/
#yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать
Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature
Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль. До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias) . Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка. Но Google DeepMind, похоже, нашли лекарство. На днях в Nature вышла их статья, которая меняет правила игры. Они представили метод, заставляющий модели «думать» о картинках так же, как это делаем мы. Я закопался в их пейпер, покрутил демки и примеры, и теперь готов рассказать, почему это не просто очередное «улучшение на 2%», а реальный шаг к AGI.
[Перевод] Сила оттенков серого: компьютерное зрение с нуля
В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.
https://habr.com/ru/articles/965706/?utm_source=habrahabr&utm_medium=rss&utm_campaign=965706
#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений
[Перевод] Сила оттенков серого: компьютерное зрение с нуля
В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO . Однако в большинстве случаев для работы с компьютерным зрением требуется понимание базовых алгоритмов, чтобы можно было адаптировать их под свои нужды. Мне захотелось понять, насколько далеко я смогу зайти, оставив в computer vision только самый минимум: одни лишь 8-битные изображения в градациях серого; никаких сложных структур данных, старый добрый C, немного байтовых массивов и единственный файл заголовка. В конце концов, изображение — это ведь просто прямоугольник из чисел, не так ли? Этот пост — экскурсия по алгоритмам, лежащим в основе Grayskull — минималистичной библиотеки компьютерного зрения, спроектированной для устройств с ограниченными ресурсами.
https://habr.com/ru/articles/965706/
#компьютерное_зрение #computer_vision #orb #fast #классификатор #распознавание_изображений
Оптика в техническом зрении. Лекция 3: Диафрагмы и виньетирование
Привет, Хабр! Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице. Это третья статья из курса основ прикладной оптики, созданного несколько лет назад для внутреннего обучения CV-разработчиков организации, где я работаю. В этой статье мы поговорим о диафрагмах: что они из себя представляют, какие бывают и как влияют на изображение. Также разберёмся, откуда берётся виньетирование и как с ним бороться. Тема при кажущейся простоте весьма сложна — даже в оптической литературе нет единой последовательности её изложения. При подготовке статьи самым сложным оказалось выбрать, какой необходимый минимум рассказывать (а что опустить) и как выстроить текст так, чтобы он легко читался и воспринимался. Думаю, и фотографы, и специалисты по компьютерному зрению найдут здесь для себя что-то новое. Если что-то останется непонятным — прошу в комментарии. Статья сочетает как упрощённые идеи из теории оптических систем, так и мой личный опыт, накопленный при работе с системами технического зрения.
Что я вынес из Oxford Machine Learning Summer School 2025
Побывал на Oxford Machine Learning Summer School 2025 — одной из крупнейших летних школ, посвящённых искусственному интеллекту, проходившей в самом центре Оксфорда. В течение четырёх дней мы слушали лекции исследователей из DeepMind, Hugging Face, Amazon, Google, ученых топовых европейских вузов. Обсуждали foundation models, reinforcement learning, generative AI и on-device ML. В статье делюсь своими впечатлениями и кратким пересказом программы, отражающей мировые тренды в развитии современного машинного обучения.
https://habr.com/ru/articles/956138/
#машинное_обучение #llm #computer_vision #multimodal_llm #generative_ai #reinforcementlearning #edge_ai #diffusion_models #образование_в_it #oxford
Как мы научили нейросеть читать технические схемы и сразу считать их стоимость
Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи. Например — технические схемы. Представьте: целые шкафы с папками, где вперемешку свежие CAD-чертежи и сканы пожелтевших листов А3 с подписями от руки: «Смотри сюда», «замени резистор». Чтобы собрать спецификацию и посчитать стоимость, инженеру приходилось садиться с карандашом и Excel — и часами переписывать резисторы, транзисторы, конденсаторы, их номиналы и количество. Ошибся в одной букве или не заметил мелкий элемент — и вся цепочка снабжения поехала. В какой-то момент мы, как разработчики, задали себе вопрос: «А почему в 2025 году до сих пор человек должен глазами считать резисторы на сканах, если есть компьютерное зрение и OCR?» Так и стартовал проект: сделать систему, которая за полминуты превратит «кривой скан схемы из прошлого века» в таблицу компонентов с готовой сметой.
https://habr.com/ru/articles/951016/
#машинное+обучение #computer_vision #yolov8 #ocr #paddleocr #нейросети #обработка_изображений #цифровая_трансформация #автоматизация #промышленность
Топ-12 сервисов с нейросетями на русском в 2025: Бесплатный чат GPT и аналоги с нюансами
На Хабре уже немало публикаций о больших моделях, но они часто крутятся вокруг всем известных брендов. В рабочей практике хочется не только «вау-эффекта», но и конкретных инструментов: чтобы быстро написать технический текст, собрать иллюстрации к статье, подготовить видео-тизер или разжевать алгоритм. Поэтому в подборке — сочетание Telegram-ботов и веб-сервисов с упором на русскоязычные сценарии, удобный старт и адекватные лимиты.
https://habr.com/ru/articles/945858/
#чат_gpt_на_русском #чат_gpt_в_россии #computer_vision #machine_learning #нейросеть_для_генерации_текста
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.
https://habr.com/ru/articles/943516/
#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей
Универсальные модели в видеоаналитике: единый фундамент для множества задач
Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ. Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.
AutismSmartDetector: Система для определения черт аутистического спектра
Оригинал материала Проект "AutismSmartDetector" представляет собой инновационную систему на основе искусственного интеллекта, предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic". Преимущества для различных отраслей Для врачей и медицинских учреждений Ранняя диагностика : Система позволяет врачам быстро и эффективно проводить предварительную оценку пациентов на наличие аутистических черт, что способствует ранней диагностике и своевременному началу лечения. Улучшение качества обслуживания : Автоматизация процесса диагностики позволяет врачам сосредоточиться на более сложных случаях и уделить больше времени пациентам. Повышение точности : Использование искусственного интеллекта снижает вероятность ошибок в диагностике, что повышает точность и надежность результатов. Для финансовых организаций Оценка рисков : Система может использоваться для оценки рисков при выдаче кредитов или страховых полисов, учитывая особенности поведения и состояния здоровья клиентов. Персонализация услуг : Финансовые организации могут предлагать персонализированные услуги и продукты, учитывая индивидуальные особенности клиентов. Для цифровых экосистем Улучшение пользовательского опыта : Система может быть интегрирована в платформы для улучшения пользовательского опыта, предлагая персонализированные рекомендации и услуги. Анализ поведения пользователей : Анализ черт аутистического спектра может помочь в понимании поведения пользователей и адаптации интерфейсов и сервисов под их потребности. Для соцсетей Безопасность и модерация : Система может использоваться для модерации контента и обеспечения безопасности пользователей, особенно тех, кто может быть уязвим из-за особенностей поведения. Персонализация контента : Социальные сети могут предлагать персонализированный контент и рекомендации, учитывая индивидуальные особенности пользователей. Для сервисов знакомств Персонализация рекомендаций : Система может помочь в подборе партнеров, учитывая индивидуальные особенности и потребности пользователей. Безопасность и защита : Сервисы знакомств могут использовать систему для защиты пользователей от мошенников и недобросовестных участников. Основные возможности Обучение модели : Обучение модели на основе данных, собранных из различных источников. Предсказание по одному изображению : Возможность загрузки и анализа одного изображения для определения наличия аутистических черт. Предсказание по множеству изображений : Анализ нескольких изображений одновременно. Предсказание по URL : Возможность анализа изображений, загруженных по URL.
https://habr.com/ru/articles/934074/
#python #pytorch #медицина_будущего #медицина #психиатрия #психология #педагогика #computer_vision #data_science #bigdata
Часть 2: Rope-Ladder Tracker — от идеи к стабильной системе
Это продолжение статьи “Rope-Ladder Tracker: визуальный возврат без GPS” , где я представил концепцию структурированного позиционирования по принципу “верёвочной лестницы”. Тогда это была идея, прототип и первые кадры. Сегодня — полноценная, стабильная система, готовая к интеграции в реальный дрон.
https://habr.com/ru/articles/933046/
#c++ #python #computer_vision #opencv #научнопопулярное #научпоп
Когда несколько пикселей решают всё: One Pixel атака и способы защиты от неё
Удивительно, но факт: несколько изменений в изображении могут полностью поменять вывод нейросети, что ломает заложенную разработчиком логику. В данной статье мы не просто подсветим факт существования One Pixel атаки, но и комплексно разберём архитектурные факторы, которые влияют на устойчивость CV-систем к данному семейству атак.
https://habr.com/ru/articles/932934/
#one_pixel_attack #computer_vision #alexnet #resnet #efficientnet #inceptionv3 #visual_transformer