OpenAI 发布Sora文生视频大模型,一句话便可生成长达一分钟的视频

发布时间:2024-06-13 13:52:18 浏览量:204次

之前我们已经介绍过多个文生视频大模型,包括字节发布的magic video以及stable video diffusion等模型,能根据文本生成对应场景的视频。

文生视频大模型是各大人工智能厂商竞争的核心领域,最新的Sora模型由OpenAI发布。

从官方展示的视频来看,Sora模型的质量和稳定性令人印象深刻,最大的模型能够生成长达一分钟的视频,对自媒体影响将是巨大的。

很多以前的工作针对视频数据的建模使用了各种方法,但Sora是一个视觉数据通用模型,可以适用于不同大小和尺寸的视频,真正的大材小用。

视频数据转化为patch

Sora模型借鉴LLM语言大模型的token方法,在高维空间将视频压缩成patch,适用于不同类型视频和图片的模型训练。

视频压缩网络

OpenAI训练了一个网络,可以降低视觉数据维度,Sora可以在压缩的潜在空间中训练并生成视频。

由于视频由视频帧图像组成,Sora从视频图像提取时空patch作为输入token,从而对视频进行训练。

缩放transformer模型

Sora模型采用了扩散transformer模型,在固定种子和输入视频样本上不断训练,提升生成视频的质量。

Sora不仅支持常见的视频尺寸还可生成各种规格的视频,适用于不同移动端设备。

相比对输入数据进行裁剪,Sora使用原始尺寸视频数据进行训练,输出更加完整的视频。

在语言理解方面,Sora集成了ChatGPT支持,使得模型理解输入文本数据。可生成准确高质量遵循用户提示的视频。

Sora不仅能编辑手输入视频,还可连接不同风格的视频,生成不同尺寸大小的图像。

强大的Sora模型引发了社交媒体热议,尽管该模型刚刚发布,可能会提供API接口供开发者使用。

https://openai.com/research/video-generation-models-as-world-simulators

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定