探秘AI文生视频背后的技术奥秘 | 火星时代教育

发布时间:2024-05-18 10:24:44 浏览量:158次

新年还没过完,AI届又发生了轰轰烈烈的事情,由openai实现的文生视频火遍了全网,那你知道它背后都是什么样的技术逻辑吗?

实现原理

具体来说,在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。他们利用transformer架构,在视频和图像潜在代码的时空补丁上运行。最大的模型Sora能够生成一分钟的高保真视频。其结果表明,缩放视频生成模型是构建物理世界通用模拟器的一条有希望的道路。

将视觉数据转化为补丁

从大型语言模型中汲取灵感,这些模型通过互联网规模的数据培训获得通才能力。我们发现,补丁是一种高度可扩展和有效的表示,用于训练不同类型的视频和图像的生成模型。

视频压缩网络

训练一个减少视觉数据维度的网络。这个网络将原始视频作为输入,并输出一个在时间和空间上压缩的潜在表示。Sora接受训练,并随后在这个压缩的潜在空间中生成视频。我们还训练了一个相应的解码器模型,将生成的潜在映射回像素空间。

时空潜伏补丁

给定一个压缩的输入视频,提取一系列作为Transformer Token的时空补丁。此方案也适用于图像,因为图像只是单帧的视频。基于补丁的表示使Sora能够对可变分辨率、持续时间和宽高比的视频和图像进行训练。

用于视频生成的缩放Transformer

Sora是一个扩散模型;给定输入嘈杂的补丁(以及文本提示等调理信息),它经过训练来预测原始的“干净”补丁。Sora的技术能够有效扩展视频模型,在不同设备上创建内容,并提高视频质量。

在这项工作中,发现扩散Transformer作为视频模型也能有效扩展。随着培训的进行,展示了视频样本与固定种子和输入的比较。随着训练计算的提高,样本质量显著提高。

可变持续时间、分辨率、宽高比

过去的图像和视频生成方法通常将视频大小、裁剪或修剪为标准尺寸。Sora具有采样灵活性,能够生成不同分辨率、持续时间和宽高比的视频,适应不同的设备和需求。

我们实证地发现,以原生宽高比进行视频训练可以改善构图和构图。Sora能够有效地改变视频风格和环境,提高视频的审美质量。

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将重新字幕技术应用于视频,以提高文本保真度和视频质量。

新兴的模能力

视频模型表现出许多有趣的紧急能力,使Sora成为物理世界与数字世界模拟的强大工具。这些能力包括3D一致性、长期连贯性、对象持久性以及与世界的互动等。

虽然目前sora仅仅开放给个别人,不过可以预见的是,全民开放仅仅是时间问题。未来已来,你准备好迎接了吗?

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定