当前位置：首页 >人工智能 >Sora的video版画：从文本到视频一键生成全新体验

Sora的video版画：从文本到视频一键生成全新体验

发布时间：2024-05-20 13:09:31 浏览量：195次

今天咱们要聊一聊谷歌最新视频合成论文VideoPoet: A Large Language Model for Zero-Shot Video Generation，这篇论文可谓革命性，他有两大亮点：1、将文本、视频、图片、音频编码为一个codebook空间，并运用LLM训练方法。2、其合成5秒(41帧）视频，最大突破在于保持视频的运动连贯性。这一点对于保持视频真实性至关重要，稍有差池就会显得虚假。

这篇文章的方法与Sora有很多相似之处，尤其是在文本视频音频统一编码方面。核心区别在于训练任务的不同。Sora与李飞飞的WALT [4] 类似，在训练任务上属于扩散模型；而videopoet则属于mask自回归模型。

这两种范式各有所长，前者合成画面更逼真，后者合成视频音频更连贯。结合二者优势将是未来发展的趋势。

我深入思考了背后的数学逻辑：扩散模型是在原图基础上添加高斯噪声来训练模型，以学习真实画面方法，让模型了解像素分布规律。这让我想起导师探索隐写领域时，通过改变像素值来检测图片篡改。扩散模型本质上也是这么做，只是利用高斯噪声而非手动改变像素值。而mask回归任务主要是预测前一帧来预测后一帧，或预测图片中心及四周、四周预测中心或左右等任务，着重学习视频连贯性。

因此，Sora可看作是WALT的升级版，没那么神秘。模型更庞大，数据更丰富，制作更清晰。我们接下来会深入研究WALT。

话不多说，我们一起来解析videopoet。文章内容非常浓缩，我也看了好一阵子才理解透。

scaling law的正确姿势：训练videopoet需要多少GPU

让我们认真思考这件事情，这也是大家非常关心的话题。

Mask模型本质上是分类器，用于预测下一个token。在经典图像分类中，imagenet数据集有1000个类别，你可以把它看作token cookbook大小为1000，总数据集为128万张图片，每个类别约1300张图片。这意味着，预测一个token的全分布概率，需要1300个样本。

GPT1的词典有40,478个词，GPT-2有50257个，假设GPT4的词典有6万个，数据集包含13万亿个token，每个token需2亿个样本才能达到GPT4的效果。

顺带一提：

大模型之所以庞大，主要原因在于词典规模过大，导致最后一层softmax层参数巨大，需要大量样本进行训练。我觉得这是一个巨大的问题。是否能够分层、分组、分步骤执行，减少计算量，因为如此庞大的cookbook并不符合人类的逻辑，我们会将“礼拜天”和“星期日”视为一个token，而LLM却将其视为两个，实际上是可以压缩的。

想要了解更多关于视频合成的技术及应用？欢迎点击咨询，火星时代教育为您提供专业的数字艺术培训课程。

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇 AI潮汐快讯: 腾讯混元大模型中文能力追平GPT-4，OpenAI增强数据分析能力

热门课程推荐

热门资讯

1. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
2. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
3. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程

人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
5. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
6. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
9. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
10. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...

Sora的video版画：从文本到视频一键生成全新体验

请绑定手机号