国内科研团队推出视频生成新利器,Latte带来新体验

发布时间:2024-05-20 16:50:03 浏览量:161次

哎呀,来来来,一直这两天全网都在热议那个爆火的Sora,现在让我们关注国内。就在前两天,Latte发布了,而且有源码,可复现!

中国的研究团队真是厉害,推出了这么厉害的东西。前几天刚刚有一个爆火的视频生成模型Sora,这不,我们中国也有了自己的视频生成模型。

这篇文章的核心就是提出了一个新的想法,名叫Latent Diffusion Transformer,简称Latte,主打视频生成。先是从视频里抠出来一堆时空token,然后通过一系列的Transformer模块,在所谓的潜在空间里模仿视频分布。因为视频里的token实在是多得很,他们还特别设计了四个高效的变种,这样更好地处理视频的空间和时间维度。

为了让生成的视频更加优质,团队进行了一系列严格的实验分析,确定了Latte的最佳操作方式,包括怎样嵌入视频片段、选择模型变种、注入时间步信息、使用时间位置嵌入和学习策略等等。

综合评估表明,Latte在多个标准视频生成数据集上都表现得非常出色,比如FaceForensics、SkyTimelapse、UCF101和Taichi-HD。而且,他们还将Latte应用到了文本到视频生成(T2V)任务上,与近期的T2V模型相比,Latte同样表现不俗。

可以说,Latte为未来的研究提供了重要的视角,即如何将Transformers与扩散模型结合起来,用于视频生成。

接下来让我们看看这篇文章里的实验成果,令人印象深刻。首先,让我们来谈谈无条件生成。在Taichi-HD、FaceForensics、SkyTimelapse这三个数据集上,分辨率为256x256的视频生成方面,Latte展现了出色的能力。不论是太极高清视频、面部伪造检测素材,还是天空的延时摄影,Latte都能生成出精美细致的视频。

接着,我们看看条件生成,分为基于类别和基于提示。基于类别,给Latte一个标签比如“UCF101”,它就可以准确生成出你想要的视频,在UCF101数据集上表现出色。而基于提示的条件生成更加酷炫,只需简单描述,比如“夜幕下,一场史诗级的龙卷风正袭击着闪光的城市”,Latte都能轻松实现,充满创意。

最后,和PVDM、DIGAN、LVDM、StyleGAN-V等现有技术相比,Latte在很多方面展现了更优的性能,无论条件生成还是无条件生成,都展现出色,生成的视频质量让人惊叹。

中国的科研团队这次实力十足,展示了中国在AI视频生成领域的强大实力和创新能力。这成果让人对未来充满了无限的想象和期待!

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定