探秘AI文生视频背后的技术奥秘 | 火星时代教育

发布时间：2024-05-18 10:24:44 浏览量：186次

新年还没过完，AI届又发生了轰轰烈烈的事情，由openai实现的文生视频火遍了全网，那你知道它背后都是什么样的技术逻辑吗？

实现原理

具体来说，在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。他们利用transformer架构，在视频和图像潜在代码的时空补丁上运行。最大的模型Sora能够生成一分钟的高保真视频。其结果表明，缩放视频生成模型是构建物理世界通用模拟器的一条有希望的道路。

将视觉数据转化为补丁

从大型语言模型中汲取灵感，这些模型通过互联网规模的数据培训获得通才能力。我们发现，补丁是一种高度可扩展和有效的表示，用于训练不同类型的视频和图像的生成模型。

视频压缩网络

训练一个减少视觉数据维度的网络。这个网络将原始视频作为输入，并输出一个在时间和空间上压缩的潜在表示。Sora接受训练，并随后在这个压缩的潜在空间中生成视频。我们还训练了一个相应的解码器模型，将生成的潜在映射回像素空间。

时空潜伏补丁

给定一个压缩的输入视频，提取一系列作为Transformer Token的时空补丁。此方案也适用于图像，因为图像只是单帧的视频。基于补丁的表示使Sora能够对可变分辨率、持续时间和宽高比的视频和图像进行训练。

用于视频生成的缩放Transformer

Sora是一个扩散模型；给定输入嘈杂的补丁（以及文本提示等调理信息），它经过训练来预测原始的“干净”补丁。Sora的技术能够有效扩展视频模型，在不同设备上创建内容，并提高视频质量。

在这项工作中，发现扩散Transformer作为视频模型也能有效扩展。随着培训的进行，展示了视频样本与固定种子和输入的比较。随着训练计算的提高，样本质量显著提高。

可变持续时间、分辨率、宽高比

过去的图像和视频生成方法通常将视频大小、裁剪或修剪为标准尺寸。Sora具有采样灵活性，能够生成不同分辨率、持续时间和宽高比的视频，适应不同的设备和需求。

我们实证地发现，以原生宽高比进行视频训练可以改善构图和构图。Sora能够有效地改变视频风格和环境，提高视频的审美质量。

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将重新字幕技术应用于视频，以提高文本保真度和视频质量。

新兴的模能力

视频模型表现出许多有趣的紧急能力，使Sora成为物理世界与数字世界模拟的强大工具。这些能力包括3D一致性、长期连贯性、对象持久性以及与世界的互动等。

虽然目前sora仅仅开放给个别人，不过可以预见的是，全民开放仅仅是时间问题。未来已来，你准备好迎接了吗？

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 OpenAI与谷歌，或许都未亮明底牌

热门课程推荐

热门资讯

1. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
2. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
3. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程

人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
5. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
6. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
9. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
10. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...