#Deep_Learning

2025-07-04

Я построил Vision Transformer с нуля — и научил его обращать внимание

В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.

habr.com/ru/articles/925050/

#deep_learning #pytorch #computer_vision #transformers #implementation

2025-06-26

Глубокое обучение для квантовой химии. Часть II. Предсказание электронной плотности

Всем привет! На связи снова Константин Ушенин из AIRI, и мы продолжаем говорить о глубоком обучении в квантовой химии. В прошлом посте мы немного разобрались в том, что такое молекула, как её представлять в компьютере, и как работают графовые нейронные сети. В этот же раз я расскажу о том, какие результаты в этой области получила наша команда. Речь пойдет о новой архитектуре для предсказания электронной плотности LAGNet, про которую у нас недавно вышла статья в Journal of Cheminformatics [1] . Мы применили несколько интересных усовершенствований к модели DeepDFT, что позволило в 8 раз снизить требование к объёму необходимых данных и в целом сделало выучивание плотности более эффективным. Но обо всём по порядку.

habr.com/ru/companies/airi/art

#chemistry #DeepDFT #deep_learning #molecules #LAGNet

2025-06-25

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

Привет, Хабр! Мы – Даниил Соловьев и Михаил Никитин из команды направления распознавания лиц. Сегодня фокусируемся на задаче распознавания лиц на изображениях низкого разрешения (low resolution face recognition, low-res FR). Она актуальна в первую очередь при анализе данных видеонаблюдения, так что если перед вами сейчас стоит подобная задача (или просто интересно, как она решается) — статья для вас. Расскажем про проблемы и сложности распознавания лиц низкого разрешения, подходы к решению задачи, в том числе свежий PETALface с конференции WACV 2025 . Также поделимся ссылками на исследования, которые подробнее освещают каждый подход.

habr.com/ru/companies/tevian/a

#низкое_качество #низкое_разрешение #распознавание_лиц #глубокое_обучение #компьютерное_зрение #машинное_обучение #обработка_изображений #deep_learning #computer_vision #face_recognition

2025-06-09

Хорошая девушка LoRA! А чем же она хороша?

Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров» фильма. Но для работы со смыслами, идеями и описаниями кинопроектов нужна более эффективная методика, позволяющая оценивать творческий замысел и основные идеи хотя бы на уровне аннотации – краткого синопсиса. И здесь уже не обойтись без больших языковых моделей.

habr.com/ru/companies/otus/art

#machine_learning #deep_learning #NLP #LoRA_Finetuning #lora

2025-05-27

Играемся с RTX 5090 (GB202) для инференса

Продолжаем статьи про практические тесты актуальных картонок от Nvidia ( A5000 Ada , A100 , 3090 и A10 ). В этот раз мне предложили (не реклама) денёк погонять Nvidia RTX 5090 в хостинге (себе такую брать я бы не стал), и я не мог отказаться от такого предложения. За день что-то стоящее натренировать нынче уже проблематично, поэтому будем "снимать" уже привычных обратно совместимых "попугаев" через gpu-burn и также замерим скорость инференса одной нашей довольно прожорливой сетки в продакшене. Все шутки про Nvidia давно уже не шутки, санкции и торговые войны идут своим чередом, но тем не менее в России новинки появляются с завидной регулярностью несмотря на все запреты. На фоне сильно негативного новостного фона со стороны игрового сообщества про новый релиз Nvidia и своеобразных "успехов" Nvidia по наращиванию своей капитализации продвинутой "сегментации" рынка (все уже пошутили про новый коннектор, огромный рост TDP и размера карт), мне лично было интересно, а есть ли рост 50* поколения карт для наших задач против 30* поколения. Если верить техно- и игровым блоггерам, их новое поколение совсем не впечатлило. Меня зато так "впечатлило" 40* поколение, что мы даже не рассматривали апгрейд 3090. Но обо всём по порядку. Давайте разбираться!

habr.com/ru/articles/913174/

#nvidia #blackwell #5090 #deep_learning #машинное_обучение #нейросети #видеокарта #nvidia_rtx_5090 #geforce #железо

2025-04-28

Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере

Осенью 2021 года мы впервые представили пользователям технологию перевода видео в Яндекс Браузере. Этот инструмент быстро стал популярен: с его помощью переведены уже миллионы часов видеоконтента. Напомним, что на старте для перевода использовались только два голоса — мужской и женский. Затем мы расширили набор заранее созданных голосов. Ну а сегодня мы делаем следующий большой шаг вперёд. Теперь наша технология сохраняет тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. О том, как мы этого добились, расскажу в этой статье. Вы узнаете, как выглядит архитектура нашего нового решения, какие проблемы zero‑shot‑синтеза мы решали и как ускоряли инференс новой модели. Расскажу про эвристики для выбора аудиопромптов. Поговорим про замеры качества. Ну и, конечно же, покажу итоговый результат нашей работы в виде ролика в конце статьи.

habr.com/ru/companies/yandex/a

#синтез_речи #искусственный_интеллект #машинный_перевод #перевод_видео #яндекс #machine_learning #deep_learning

2025-04-14

[Перевод] Обзор решений для создания AI-аватаров. История развития и практическое применение

Исследование эволюции AI аватаров — от примитивных говорящих голов до полноценных персонажей с естественной мимикой и движениями тела. Анализ возможностей технологии на основе практических тестов более 20 продуктов и их применение в трех ключевых сегментах: для потребителей (создание персонажей), малого бизнеса (лидогенерация) и предприятий (масштабирование контента)

habr.com/ru/articles/900792/

#искусственный_интеллект #ai_аватары #генерация_видео #deep_learning #ai_персонажи #контент #виртуальные_персонажи #цифровые_медиа #ai

2025-04-12

NoProp: Реальный опыт обучения без Backprop – от провала к 99% на MNIST

Всем привет! Обучение нейронных сетей с помощью обратного распространения ошибки (backpropagation) — это стандарт де‑факто. Но у него есть ограничения: память, последовательные вычисления, биологическая неправдоподобность. Недавно я наткнулся на интересную статью « NOPROP: TRAINING NEURAL NETWORKS WITHOUT BACK‑PROPAGATION OR FORWARD‑PROPAGATION » (Li, Teh, Pascanu, arXiv:2403.13 502), которая обещает обучение вообще без сквозного backprop и даже без полного прямого прохода во время обучения ! Идея показалась захватывающей, и мы (я и ИИ‑ассистент Gemini) решили попробовать ее реализовать на PyTorch для MNIST. В этой статье я хочу поделиться нашим путешествием: как мы пытались следовать описанию из статьи, с какими трудностями столкнулись, как анализ связанных работ помог найти решение (которое, правда, отличается от оригинала) и каких впечатляющих результатов удалось достичь в итоге. Спойлер: получилось интересно, совсем не так, как ожидалось, но результат превзошел ожидания от процесса отладки. Дисклеймер 1: Это рассказ об учебном эксперименте. Результаты и выводы основаны на нашем опыте и могут не полностью отражать возможности оригинального метода при наличии всех деталей реализации.)

habr.com/ru/articles/900186/

#нейронные_сети #нейронные_сети_и_машинное_обучение #машинное_обучение #deep_learning #noprop #DDPM #backpropagation #research #искусственный_интеллект

2025-04-09

Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2

Привет! Некоторое время назад я начал искать истоки термина «Deep Learning» . Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки!

habr.com/ru/companies/selectel

#selectel #ии #искусственный_интеллект #машинное_обучение #ml #dl #deep_learning #глубокое_обучение #познавательное

2025-03-18

Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи. Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4i . Если первые версии TPU были ориентированы исключительно на ускорение инференса (выполнение уже обученных моделей), то TPUv2 и TPUv3 смогли взять на себя ещё и тренировку крупных нейросетей. Но в дальнейшем выяснилось, что для оптимальной работы дата-центров в масштабах Google рациональнее разделить решения для тренировки и инференса. TPUv4i — это результат учёта многих уроков и ограничений, проявившихся в предыдущих чипах. В этом материале разберём, какие «десять уроков» сформировали подход Google к созданию TPUv4i , что это за архитектура и какие проблемы дата-центров она решает.

habr.com/ru/articles/892102/

#ml #pytorch #proceesors #deep_learning #inference

2025-03-18

Мир будущего: управление устройствами с помощью жестов

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег. Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.

habr.com/ru/companies/oleg-bun

#data_mining #computer_vision #detection #neural_networks #data_science #deep_learning #device_control #gesture_recognition #datasets #humancomputerinteraction

2025-03-13

Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

Компьютерное зрение (Computer Vision) пережило невероятную эволюцию за последние десятилетия. От простых свёрточных сетей до сложных архитектур, которые сегодня задают стандарты в распознавании изображений, обработке видео и других задачах. Но как разобраться во всём этом многообразии? Чтобы помочь себе (и вам!) лучше понять основные направления развития, я создал Mind Map , которая объединяет ключевые архитектуры Computer Vision — от классических моделей до современных прорывов.

habr.com/ru/articles/890724/

#computer_vision #mind_maps #deep_learning #machine_learning #машинное_обучение #нейронные_сети #neural_networks #transformers #resnet

2025-03-07

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Датасет HaGRID , о котором мы писали в одном из постов , — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут ), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут , тут и тут ). Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M . Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M . Данные, код и предобученные модели можно найти в репозиториях HaGRID , dynamic gestures , а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M , HaGRID .

habr.com/ru/companies/sberdevi

#data_mining #computer_vision #humancomputerinteraction #gesture_recognition #device_control #datasets #data_science #deep_learning #neural_networks #detection

2025-02-28

Автоматизированное 3D-сегментирование зубов: Современные методы, вызовы и перспективы

1. Обзор проблемы Трёхмерная стоматологическая визуализация, в особенности конусно-лучевая компьютерная томография (КБКТ), стала ключевым инструментом в современной стоматологии для диагностики и планирования лечения ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). КБКТ обеспечивает получение высококачественной 3D-информации о зубах и окружающих костных структурах при меньшей дозе облучения по сравнению с медицинской КТ ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Это богатство информации позволяет проводить точное ортодонтическое планирование, моделировать ортогнатическую хирургию, планировать установку зубных имплантатов и выявлять патологические процессы ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ) ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Автоматизированная обработка 3D-сканов зубов (детекция, сегментация и классификация) имеет огромное значение – она может ускорить клинические процессы, повысить согласованность диагностики и облегчить создание 3D-печатных моделей или CAD/CAM-моделей для протезирования и хирургических навигационных систем. Например, точная сегментация зубов позволяет получить 3D-модели, которые помогают при навигации имплантатов и автотрансплантации зубов, повышая шансы на успех ( The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review ). Кроме того, автоматизированный анализ может помочь в выявлении ретенированных или отсутствующих зубов и способствовать проведению виртуальных процедур (например, изготовлению кап, коррекции окклюзии), что подчеркивает практическую ценность цифровой стоматологии.

habr.com/ru/articles/886778/

#data_sciense #cnn #computer_vision #ai #3d_cnn #machine_learning #deep_learning

2025-02-26

Postdoctoral Fellowships in Computer Vision, Khalifa University, UAE

Computer Science Department, Khalifa University

See the full job description on jobRxiv: jobrxiv.org/job/khalifa-univer

#computer_vision #deep_learning #ScienceJobs #hiring #research
jobrxiv.org/job/khalifa-univer

2025-02-24

Искусственный интеллект в ритейле: как он предсказывает вашу следующую покупку в приложении

Привет, Хабр! На связи подразделение ad-hoc аналитики X5 Tech. Сегодня мы расскажем о задаче Next Basket Recommendation (NBR) и о том, как она может быть полезна для онлайн-ритейла. В этой статье мы рассмотрим, как с помощью рекомендательных моделей можно предсказать, какие товары пользователь добавит в свою следующую корзину, и как это помогает улучшить взаимодействие с приложением. Вы узнаете о ключевых метриках, которые используются для оценки качества рекомендаций, а также познакомитесь с различными подходами — от простых частотных методов до современных моделей на основе глубокого обучения.

habr.com/ru/companies/X5Tech/a

#nbr #recsys #рекомендательные_системы #искусственный_интеллект #ии #ии_в_ритейле #TAIWI #TIFUKNN #DNTSP #deep_learning

2025-02-13

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методы Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

habr.com/ru/articles/881998/

#nltk #python3 #pymorphy #ml #deep_learning

2025-02-06

Postdoctoral Fellowships in Computer Vision, Khalifa University, UAE

Computer Science Department, Khalifa University

See the full job description on jobRxiv: jobrxiv.org/job/khalifa-univer

#computer_vision #deep_learning #ScienceJobs #hiring #research
jobrxiv.org/job/khalifa-univer

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst