发布时间:2024-05-20 13:09:31 浏览量:195次
今天咱们要聊一聊谷歌最新视频合成论文VideoPoet: A Large Language Model for Zero-Shot Video Generation,这篇论文可谓革命性,他有两大亮点:1、将文本、视频、图片、音频编码为一个codebook空间,并运用LLM训练方法。2、其合成5秒(41帧)视频,最大突破在于保持视频的运动连贯性。这一点对于保持视频真实性至关重要,稍有差池就会显得虚假。
这篇文章的方法与Sora有很多相似之处,尤其是在文本视频音频统一编码方面。核心区别在于训练任务的不同。Sora与李飞飞的WALT [4] 类似,在训练任务上属于扩散模型;而videopoet则属于mask自回归模型。
这两种范式各有所长,前者合成画面更逼真,后者合成视频音频更连贯。结合二者优势将是未来发展的趋势。
我深入思考了背后的数学逻辑:扩散模型是在原图基础上添加高斯噪声来训练模型,以学习真实画面方法,让模型了解像素分布规律。这让我想起导师探索隐写领域时,通过改变像素值来检测图片篡改。扩散模型本质上也是这么做,只是利用高斯噪声而非手动改变像素值。而mask回归任务主要是预测前一帧来预测后一帧,或预测图片中心及四周、四周预测中心或左右等任务,着重学习视频连贯性。
因此,Sora可看作是WALT的升级版,没那么神秘。模型更庞大,数据更丰富,制作更清晰。我们接下来会深入研究WALT。
话不多说,我们一起来解析videopoet。文章内容非常浓缩,我也看了好一阵子才理解透。
scaling law的正确姿势:训练videopoet需要多少GPU
让我们认真思考这件事情,这也是大家非常关心的话题。
Mask模型本质上是分类器,用于预测下一个token。在经典图像分类中,imagenet数据集有1000个类别,你可以把它看作token cookbook大小为1000,总数据集为128万张图片,每个类别约1300张图片。这意味着,预测一个token的全分布概率,需要1300个样本。
GPT1的词典有40,478个词,GPT-2有50257个,假设GPT4的词典有6万个,数据集包含13万亿个token,每个token需2亿个样本才能达到GPT4的效果。
顺带一提:
大模型之所以庞大,主要原因在于词典规模过大,导致最后一层softmax层参数巨大,需要大量样本进行训练。我觉得这是一个巨大的问题。是否能够分层、分组、分步骤执行,减少计算量,因为如此庞大的cookbook并不符合人类的逻辑,我们会将“礼拜天”和“星期日”视为一个token,而LLM却将其视为两个,实际上是可以压缩的。
想要了解更多关于视频合成的技术及应用?欢迎点击咨询,火星时代教育为您提供专业的数字艺术培训课程。
热门资讯
想将照片变成漫画效果?这篇文章分享了4个方法,包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图,简单操作就能实现,快来尝试一下吧!
2. 华为手机神奇“AI修图”功能,一键消除衣服!原图变身大V领深V!
最近华为手机Pura70推出的“AI修图”功能引发热议,通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗?点击查看!
近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle:让静态人物动起来,创意无限!
Viggle AI是一款免费制作视频的AI工具,能让静态人物图片动起来,快来了解Viggle AI的功能和优势吧!
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器
这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. 零基础10分钟生成漫画,教大家如何用AI生成自己的漫画
接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。 用户可以使...
8. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程
人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
9. AI显卡绘画排行榜:4090无悬念,最具性价比出人意料
在AI绘图领域,Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现,以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
同学您好!