火星时代教育:一句话变成视频大战

发布时间:2024-06-01 09:07:02 浏览量:104次

不可思议,一场文生视频的大战即将开启。

今年Sora的发布引起了AI市场极大的轰动,而今天中国首个长时长、高一致性、高动态性视频大模型——「Vidu」诞生了。

生成效果怎么样?让我们先一睹为快。

上传视频封面

好的标题可以获得更多的推荐及关注者

Vidu由北京数科与清华研究院联合发布。北京生数科技有限公司成立于最新2024年,核心团队成员来自清华大学人工智能研究院,此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。公司致力打造世界领先的多模态大模型,融合文本、图像、视频、3D等多模态信息,探索生成式AI在艺术设计、游戏制作、影视后期、内容社交等场景的商业赋能,通过AI提升人类的创造力和生产力。

Vidu特点

视频长度16S。 支持一键生成长达16秒、分辨率高达1080P的高清视频内容。长度突破10秒大关「Vidu」生成的视频不再是持续几秒的「GIF」,而是达到了16秒,并且做到了画面连续流畅,且有细节、逻辑连贯。尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

能够模拟真实物理世界具备丰富想象力。在视频制作中有个非常重要的概念——镜头语言。通过不同的镜头选择、角度、运动和组合,来表达故事情节、揭示角色心理、营造氛围以及引导观众情感。

现有AI生成的视频,能够明显地感觉到镜头语言的单调,镜头的运动局限于轻微幅度的推、拉、移等简单镜头。深究背后的原因看,因为现有的视频内容生成大多是先通过生成单帧画面,再做连续的前后帧预测,但主流的技术路径,很难做到长时序的连贯预测,只能做到小幅的动态预测。

拥有多镜头生成能力,保持时空一致性。视频画面的连贯和流畅性至关重要,这背后其实是人物和场景的时空一致性,比如人物在空间中的运动始终保持一致,场景也不能在没有任何转场的情况下突变。而这一点 AI 很难实现,尤其时长一长,AI生成的视频将出现叙事断裂、视觉不连贯、逻辑错误等问题, 这些问题会严重影响视频的真实感和观赏性。

Vidu技术架构:

  • - Vidu采用顶尖深度生成式算法
  • - 优化多模态信息的融合
  • - 实时生成高清视频

想要了解更多Vidu的技术细节,点击咨询

火星时代教育,数码艺术教育领头羊,专注AI创意设计教育培训30年,涵盖游戏设计、动画培训、影视后期等多个领域

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定