[Перевод] Open AI Sora. Модели генерации видео как симуляторы мира
Мы исследуем крупномасштабное обучение генерирующих моделей на видеоданных. В частности, мы совместно обучаем модель распространения текста с учетом условий на видео и изображениях переменной длительности, разрешения и соотношения сторон. Мы используем архитектуру transformer, которая оперирует пространственно-временными фрагментами скрытых кодов видео и изображений. Наша самая крупная модель, Sara, способна генерировать видео высокой четкости продолжительностью в минуту. Наши результаты показывают, что масштабирование моделей генерации видео - многообещающий путь к созданию универсальных симуляторов физического мира.
https://habr.com/ru/articles/794316/
#open_ai #chat_gpt #Open_AI_Sora #Sora