Lmst

[Перевод] Open AI Sora. Модели генерации видео как симуляторы мира

Мы исследуем крупномасштабное обучение генерирующих моделей на видеоданных. В частности, мы совместно обучаем модель распространения текста с учетом условий на видео и изображениях переменной длительности, разрешения и соотношения сторон. Мы используем архитектуру transformer, которая оперирует пространственно-временными фрагментами скрытых кодов видео и изображений. Наша самая крупная модель, Sara, способна генерировать видео высокой четкости продолжительностью в минуту. Наши результаты показывают, что масштабирование моделей генерации видео - многообещающий путь к созданию универсальных симуляторов физического мира.

https://habr.com/ru/articles/794316/

#open_ai #chat_gpt #Open_AI_Sora #Sora

#open_ai_sora

Client Info