#sberai

2025-06-05

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

habr.com/ru/companies/sberbank

#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning

2025-02-27

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём составляющие модели и её архитектуру, а также углубимся в процесс обучения.

habr.com/ru/companies/sberbank

#генеративные_модели #аватар #gan #sber #sberai #смешивание_изображений #head_swap

2024-12-13

Kandinsky 4.0 — новая модель генерации видео

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

habr.com/ru/companies/sberbank

#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

2024-05-28

Kandinsky Video 1.1: обновленная модель генерации видео

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video , основанную на модели генерации изображений Kandinsky 3.0 , по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь ). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу. Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

habr.com/ru/companies/sberbank

#генерация_видео #kandinsky_video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #texttoimage #computer_vision

2024-04-04

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей. В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье . Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь .

habr.com/ru/companies/sberbank

#kandinsky_31 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #texttoimage

2023-11-22

Kandinsky 3.0 — новая модель генерации изображений по тексту

Без чувства современности художник останется непризнанным. Михаил Пришвин В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2 , которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации. Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле. В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

habr.com/ru/companies/sberbank

#kandinsky_30 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computer_vision #texttoimage #animation

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst