发布时间:2024-03-28 15:53:58 浏览量:233次
来源:Agent的潜意识
今天我们来正式研究谷歌的最新视频合成论文VideoPoet: A Large Language Model for Zero-Shot Video Generation。这篇论文是一个划时代的产品,之所以这么说,他有两个核心贡献:1、将文本、视频、图片、音频统一编码成一个codebook空间,然后用LLM那套训练范式训练。2、效果上,他可以合成5秒(41帧)的视频,核心突破是它可以保持运动的一致性。这一点( motion)很难,因为人类对动作连贯性很敏感。稍微有些别扭就觉得视频很假。
这篇文章的方法可以说跟sora差别很小,像文本视频音频统一编码就完全是一样的。核心差别在于训练任务的不一样上。Sora跟 李飞飞他们的工作WALT [4] 是一样的,就是在训练任务上,一个扩散模型;而videopoet是一个mask自回归模型。
这两种范式各有千秋,前一种合成图片视频的真实场景逼真度更高,后一种方法合成视频音频的连贯性更好。应该结合起来一起用。
之所以有这样的区别,我仔细思考了下背后的数学逻辑:前者的diffusion扩散模型,他是针对原图增加高斯噪声,然后让模型学习去燥,这样模型更能学到逼真度高的画卷方法,他让模型去学习了像素的真实分布规律。这一点我多讲一句,我想起学校生涯的时候导师研究隐写分析的领域知识,就是将一张图片里的一些像素值改掉,然后让检测器检测出来哪些图片有篡改,哪些没有。那么这个扩散模型其实就是干这个活,只是不是手工篡改像素值,而是利用高斯噪声来篡改像素值。而后一种mask回归任务呢,他主要特征是前一帧预测后一帧,或者是图片中心预测整个四周,四周预测中心或者左边预测右边这些任务,他整个任务设计的就是next token的意思,当然就主要学习视频的连贯性了。
因此,sora你可以理解为WALT的改进版。并不神秘。模型结构变大了,然后数据变多了,然后更高清了。效果更好了。后面我们再研读WALT。
言归正传。我们来正式解刨videopoet。这篇文章知识密度很高。我看了好久才搞懂。
scaling law的正确姿势:训练videopoet需要多少GPU
我们来认真盘一下这个事情。他也是大家很关心的事。
Mask模型本质是一个分类器,预测next token是什么。经典图像分类工程中,imagenet数据集,共1000个类别,你可以认为是token的cookbook是1000 的size,然后总数据集是128万,合每个类别1300张图片的样子。这个类比的意思是,一个token的全分布概率计算,需要1300个样例来统计。
GPT1的词典大小是40,478 个,GPT-2的词典大小为50257个,因此词典差别不是很大,那么我们姑且假定GPT4的词典大小为6万,他的数据集呢,是13万亿个 token,也就是每个token有2亿个样例来计算全分布概率才能达到GPT4的效果。
题外话:
大模型之所以大,核心问题就是词典大小太大,导致最后一层的预测softmax层参数巨大,需要大量的样例才能将这些参数完整训练出来。因此造成了大的资源浪费。我觉得这个是一个巨大的bug。是否可以分层分group分步执行,将这个计算量降低,因为本来就不符合逻辑,这么巨大的cookbook其实不符合人类的认知逻辑的,我们会将礼拜天和星期日当一个token,而LLM的话就是两个,其实是可以压缩的。
热门资讯
想将照片变成漫画效果?这篇文章分享了4个方法,包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图,简单操作就能实现,快来尝试一下吧!
2. 华为手机神奇“AI修图”功能,一键消除衣服!原图变身大V领深V!
最近华为手机Pura70推出的“AI修图”功能引发热议,通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗?点击查看!
近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle:让静态人物动起来,创意无限!
Viggle AI是一款免费制作视频的AI工具,能让静态人物图片动起来,快来了解Viggle AI的功能和优势吧!
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器
这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. 零基础10分钟生成漫画,教大家如何用AI生成自己的漫画
接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. AI显卡绘画排行榜:4090无悬念,最具性价比出人意料
在AI绘图领域,Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现,以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。 用户可以使...
就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
10. 10个建筑AI工具,从设计到施工全覆盖!肯定有你从来没听过的
讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
同学您好!