Sora的video版画:从文本到视频一键生成全新体验

发布时间:2024-05-20 13:09:31 浏览量:195次

今天咱们要聊一聊谷歌最新视频合成论文VideoPoet: A Large Language Model for Zero-Shot Video Generation,这篇论文可谓革命性,他有两大亮点:1、将文本、视频、图片、音频编码为一个codebook空间,并运用LLM训练方法。2、其合成5秒(41帧)视频,最大突破在于保持视频的运动连贯性。这一点对于保持视频真实性至关重要,稍有差池就会显得虚假。

这篇文章的方法与Sora有很多相似之处,尤其是在文本视频音频统一编码方面。核心区别在于训练任务的不同。Sora与李飞飞的WALT [4] 类似,在训练任务上属于扩散模型;而videopoet则属于mask自回归模型。

这两种范式各有所长,前者合成画面更逼真,后者合成视频音频更连贯。结合二者优势将是未来发展的趋势。

我深入思考了背后的数学逻辑:扩散模型是在原图基础上添加高斯噪声来训练模型,以学习真实画面方法,让模型了解像素分布规律。这让我想起导师探索隐写领域时,通过改变像素值来检测图片篡改。扩散模型本质上也是这么做,只是利用高斯噪声而非手动改变像素值。而mask回归任务主要是预测前一帧来预测后一帧,或预测图片中心及四周、四周预测中心或左右等任务,着重学习视频连贯性。

因此,Sora可看作是WALT的升级版,没那么神秘。模型更庞大,数据更丰富,制作更清晰。我们接下来会深入研究WALT。

话不多说,我们一起来解析videopoet。文章内容非常浓缩,我也看了好一阵子才理解透。

scaling law的正确姿势:训练videopoet需要多少GPU

让我们认真思考这件事情,这也是大家非常关心的话题。

Mask模型本质上是分类器,用于预测下一个token。在经典图像分类中,imagenet数据集有1000个类别,你可以把它看作token cookbook大小为1000,总数据集为128万张图片,每个类别约1300张图片。这意味着,预测一个token的全分布概率,需要1300个样本。

GPT1的词典有40,478个词,GPT-2有50257个,假设GPT4的词典有6万个,数据集包含13万亿个token,每个token需2亿个样本才能达到GPT4的效果。

顺带一提:

大模型之所以庞大,主要原因在于词典规模过大,导致最后一层softmax层参数巨大,需要大量样本进行训练。我觉得这是一个巨大的问题。是否能够分层、分组、分步骤执行,减少计算量,因为如此庞大的cookbook并不符合人类的逻辑,我们会将“礼拜天”和“星期日”视为一个token,而LLM却将其视为两个,实际上是可以压缩的。

想要了解更多关于视频合成的技术及应用?欢迎点击咨询,火星时代教育为您提供专业的数字艺术培训课程。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定