发布时间:2024-07-10 11:03:46 浏览量:141次
大洋彼岸,视频生成大模型Sora的到来,展现了大模型理解世界、模拟世界的科技力量。Sora之后,挑战者前赴后继。
6月,这一赛道热闹似“过年”,国内外迎来一轮新品爆发。快手“可灵”、Luma AI以及Runway迭代更新后的Gen-3 Alpha等爆品涌现。其中,讨论度最高的是国内短视频巨头快手自研的“可灵”。
“可灵”生成的熊猫湖边弹吉他形象
在先推出文生视频功能后,6月21日,“可灵”又正式推出图生视频功能,支持用任意静态图像生成5s视频,可搭配不同的文本内容。同时,还为已生成的视频提供一键续写和连续多次续写功能,将视频最长可延伸至约3分钟。
社交平台上,已有不少博主、创作者分享使用“可灵”的体验,连国外的创作者也是各种“求内测”。6月25日下午5点,记者看到有21万多人申请测试。到了6月26日0点,已有超22万人申请。
“可灵”的文生视频、图生视频能力表现如何?国产视频生成大模型玩家涌入未来如何?
就文生视频和图生视频两大功能,记者测试了可灵”与国外Runway的Gen-2。
首先,看一下文生视频两大模型生成的结果情况。
记者以“一个美女在吃苹果”为关键词,让两大模型生成了视频。从生成时间上来看,两者相差不多,在3分钟左右。
“可灵”生成的5秒视频,一位身穿白色上衣的女子坐在沙发上大口吃着苹果。动态、时效、场景,都精准按照关键词实现了。但嘴部动作以及左手大拇指等细节,仍可进一步优化。
“可灵”根据关键词生成的视频
考虑到测试Gen-2为国外大模型,记者分别用“一个美女在吃苹果”和“A beautiful girl is eating an apple”进行测试。
其中,中文关键词下,Gen-2生成的视频只有女子没有苹果要素,画风偏动漫风。在英文关键词下,生成的视频有了苹果,但是没有吃的动作,嘴部和手部包括苹果都变形明显。相较之下,“可灵”更胜一筹。
Gen-2根据关键词生成的视频
此外,记者在体验时发现,在给出一些关键词进行视频生成时,“可灵”也会“失灵”。例如,“西湖断桥上游客很多”,视频中呈现的并不是断桥,游客也不是摩肩接踵的景象。同时,有多个主体时,有时也会出现一些元素无法完全呈现的情况。
其次,在图生视频方面,记者以一张男子拉着风筝在山路上奔跑的照片进行了测试。
用于测试图生视频的照片
“可灵”生成的5秒视频,风筝飘动和人物奔跑看起来比较自然,除了人物头部的细节有些失真,画面整体看起来流畅生动。
“可灵”根据图片生成的视频
Gen-2生成的4秒视频,风筝的飘动幅度小,人物形象则出现了比较大的失真,衣服和人体都有比较明显的“变形”。
Gen-2根据图片生成的视频
记者又输入了两张漫画风格的图片,对两个模型进行了测试,表现上各有千秋,Gen-2在画面整体动感上更强,“可灵”的部分动态细节比较精准。
美国《麻省理工科技评论》近日发表了一篇对可灵文生视频的评测,主要对比了Sora当时发布的演示视频和形象,如东京街头景象、猫迅速穿过花园以及宇航员骑马等场景。从可灵生成的结果来看,基本没有偏离提示文字,镜头的平移、树叶颤动,以及马和宇航员的转动,视频画面的物理特性表现可以。
文章也指出,生成的视频看起来模糊,有时会忽略提示中的请求,加上5秒的时长,导致画面的动态或复杂性大幅降低。但毕竟对标的是Sora精心挑选后发布的视频,刚发布的可灵表现仍旧亮眼。
今年以来,国内视频生成大模型有更多玩家加入。
在“可灵”发布前,3月,字节跳动旗下Dreamina(即梦)内测视频生成功能;4月底,生数科技首个文生视频模型Vidu发布;5月,腾讯也开源了DiT架构的混元文生图模型。
快手方面此前表示,可灵采用类Sora的技术路线并结合多项自研创新技术,具备诸多优势:一是能够生成大幅度的合理运动;二是能够模拟物理世界特性;三是具备强大的概念组合能力和想象力;四是生成的视频分辨率高达1080p,最长可达2分钟(帧率30fps),且支持自由的宽高比。
记者采访了两位杭州从业多年的设计师,在他们看来,国产的视频生成大模型未来可期。
“可灵的表现非常好,超出预期。将来就算收费使用,我也能接受。”金先生一直关注国内外大模型的发展,在体验完“可灵”后,他表示效果不输甚至超过了一些国外同类大模型。设计师龚先生表示,国产大模型的进步颠覆了部分内容创作场景,例如影视和广告领域,文生视频能快速生成特效、场景设计,游戏开发上也能用于生成角色动画等。
快手剪辑软件“快影”中的AI创作专区,可进行文生视频和图生视频等。
两位设计师表示,一方面,“可灵”上线就开展公测,先声夺人,关注度和影响力更大,已快速积累了用户。另外一方面,快手拥有庞大的视频平台和数亿用户,通过大量的上传结果,可以进一步丰富和优化可灵的海量视频数据,带动可灵大模型的迭代。
相关研报指出,目前,国内大语言及多模态大模型正持续追赶海外主流大模型,模型能力逐步提升,带动下游应用发展。过去几个月,国内头部应用总访问量与海外头部应用总访问量差距逐渐缩小,并看好未来国内应用快速增长的趋势。
业内人士指出,如今对大模型的关注正转向具有明确市场需求和实际应用场景的垂直模型。随着国产视频生成大模型玩家涌入,市场竞争更加激烈,相关大模型研发企业,产品更新迭代上需持续投入,实现成熟的商业化将是一个长期的考验。
转载请注明出处
热门资讯
想将照片变成漫画效果?这篇文章分享了4个方法,包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图,简单操作就能实现,快来尝试一下吧!
2. 华为手机神奇“AI修图”功能,一键消除衣服!原图变身大V领深V!
最近华为手机Pura70推出的“AI修图”功能引发热议,通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗?点击查看!
近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle:让静态人物动起来,创意无限!
Viggle AI是一款免费制作视频的AI工具,能让静态人物图片动起来,快来了解Viggle AI的功能和优势吧!
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器
这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. 零基础10分钟生成漫画,教大家如何用AI生成自己的漫画
接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。 用户可以使...
8. AI显卡绘画排行榜:4090无悬念,最具性价比出人意料
在AI绘图领域,Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现,以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
9. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程
人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
同学您好!