发布时间:2024-07-24 09:45:18 浏览量:214次
大洋彼岸,Sora的到来,似乎让AI有了睁眼看世界的可能。在官方表述中,Sora被称为“世界模拟器”:它理解真实的规则,并在此基础上生成“世界”。如果说从前还是一道铜墙铁壁,那么现在,虚拟与真实可能仅一线之隔。大家都不想做创建虚构的玩具,而是想成为生成世界的“造梦机”。Sora之后,它的挑战者们前赴后继。
6月,视频生成大模型迎来又一轮新品爆发,生成式AI赛道像是“过年了”。快手可灵、Luma AI以及Runway迭代更新后的Gen-3 Alpha等现象级爆款不断涌现。其中,讨论度最高的是快手自研视频生成大模型“可灵”,全面对标Sora。
《每日经济新闻》记者将OpenAI官方公布的5条Sora视频提示词投喂给可灵,对其文生成视频的能力进行测试,同时从动态、视效、细节、场景等多维度表现进行结果比对和关联。
每经记者从五大场景全面评测Sora和快手可灵
测试和观察后发现,虽然在部分维度Sora仍然领先,且可灵由于尚处开放初期,上线功能相对单一,生成存在一定限制,但几乎可以判断,国产视频生成大模型已经上升到了一个新的高度。
国金证券互联网传媒首席分析师在接受记者采访时表示,抛开技术,快手“可灵”已经实现一部分绝对真实世界观的数据支持,AI对不同世界观的快速理解以及在视频上的反应,“这是我认为不可思议的”。
可灵,灵吗?
Sora之后,国内视频生成大模型不断推出。
今年以来,快手先后发布1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”。视频生成大模型可灵则在6月被推出,快手方面称,可灵能够生成大幅度的合理运动,模拟物理世界特性,生成的视频分辨率达1080p,时长最长可达2分钟。图生视频功能后续开放。
《每日经济新闻》记者选取了OpenAI官方公布的5条Sora视频提示词(东京街头的女士、太空人、无人机视角的海岸、3D动画的小怪物、云端读书的年轻人)测试可灵。同时比对生成视频进行效果测试,从“画面呈现”“功能与体验”两大维度下的多个具体表现进行总结。
在画面呈现上:
1、动态效果。可灵的“镜头”普遍为前后向逻辑推进,Sora则更丰富。在“海浪撞击悬崖的无人机视图”一项,Sora画面的聚焦点在提示词中“有灯塔的小岛”,对整个环境进行环视,重点突出。可灵的镜头前后推进,小岛被设置在画面的最远端,没有重点突出小岛。不过,Sora和可灵对海浪的运动轨迹描述都很准确。

2、视觉效果。这一项上,Sora和可灵表现都较为优秀。特别是在“东京街头的女士”视频画面呈现上,无论是对霓虹灯色彩的展示,还是潮湿地面反光的呈现,两个模型的画面光影表达都很准确。

3、细节表现。记者重点关注到二者对人的五官的呈现。Sora的刻画更细致,特别是人在动态场景下,五官没有变形,几乎是相对静态的。可灵在动态场景下,人的五官有所变形,会随着画面镜头的推进、人的动作而扭曲。
但在“3D动画的小怪物”生成上,可灵的细节表现与Sora差别不大,特别是对小怪物蓬松毛发特性的捕捉和呈现上,很精准也很细致。

4、连贯性和流畅度。Sora和可灵的画面表现均连贯、流畅,但稍有不同的是,对复杂场景的描述,Sora明显更优。特别是在“太空人”的画面生成上,可灵的画面只给出了太空人的正面特写,但Sora呈现了远近景的切换,添加了更多辅助元素,如飞船等。
在功能和体验上,Sora与可灵视频生成的风格都更偏向模拟真实世界的场景。无论是科幻场景、自然风光、超自然画面、3D动画等都更加侧重写实的风格。
在不同场景的适配上,Sora的能力似乎更胜一筹。在对“云端上读书的年轻人”的画面生成上,可灵的贴图感更重,素材间的融合度不高。语义的理解上,Sora和可灵都较为准确,特别是对提示词中不同主体的捕捉,都比较完整。

不过,需要注意的是,可灵目前生成的视频长度均为5秒,与Sora的10至20秒相比,前者在复杂场景的叙述处理上会呈现一定的局限性。上线初期的可灵,功能较单一,风格切换等有局限性。
此外,记者也在体验时发现,在一些视频生成时,“可灵”也会“失灵”。例如,弹吉他的熊猫拥有人类的手指;提示词中“浅绿色的布艺沙发”,到了视频中呈现的则是红棕色的皮质沙发。同时,在一些视频中,当有多个主体时,有时也会出现一些元素无法完全呈现在视频中的情况。
而在生成“10岁小女孩在羽毛球场比赛”时,小女孩手里的羽毛球拍变成了网球拍,且只有乒乓球拍大小,羽毛球也变成了网球。可见,实际生成视频时,可灵有时存在一些较大的偏差。
值得注意的是,上述可灵视频由记者测试生成,不同版本视频可能存在差异。而目前Sora仍未开放,所生成视频均为官方发布的版本,待Sora开放测试后,用户实际测试效果或许与官方发布视频也有差异。
可灵一号难求?Sora技术架构路线可以被复现
“肯定是超出预期的,而且最先推出来比肩Sora的是快手团队,还挺意外。”多位在互联网行业深耕多年的资深行业人士、资深产业分析师在接受记者采访时坦言。
随着快手“可灵”正式开放内测,社交平台上,已有不少博主、创作者分享自己使用“可灵”的体验,国外创作者们也是各种求内测。虽然目前内测只能生成5秒视频,但已经有不少体验者通过多个视频组合成短片,不少网友笑称“压力给到了抖音剪映”。
早在2024年初,快手就启动了新AI战略,在最近几次财报电话会议上,快手联合创始人兼首席执行官程一笑也频频谈及快手自研大模型的研究及应用进展。不过,在很多人看来,快手更侧重于短视频和社交内容,而非专业的视频剪辑工具。此前的大模型竞争中,快手也并不是引人关注的第一梯队成员。
此前,快手推出的通用大语言模型“快意”以及文生图大模型产品“可图”,在市场的关注度和影响力均相对有限。如今,“可灵”的出现,让国内大模型赛道看到了对标Sora“弯道超车”的可能。

《每日经济新闻》记者了解到,在架构选择方面,可灵整体框架采用了类似Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net。同时,在此基础上,快手大模型团队还对模型中的隐空间编/解码、时序建模等模块进行了升维。
在陈泽敏看来,抛开技术,快手“可灵”已经实现一部分绝对真实世界观的数据支持,AI对不同世界观的快速理解以及在视频上的反应,“这是我认为不可思议的”。
在互联网产业深耕多年的某头部游戏公司高管认为,或许抖音未来也会推出类似的文生视频模型,但目前“可灵”的推出,最大的意义在于,它证明Sora的技术架构路线是可以被复现的,并且依托短视频平台的海量、优质过往数据,是可以后来居上的。同时,也说明之前Sora出现时业内对它“真实世界模拟器”的评价可能过高。
相关研报指出,目前,国内大语言及多模态大模型正持续追赶海外主流大模型,模型能力逐步提升,带动下游应用发展。过去几个月,国内头部应用总访问量与海外头部应用总访问量差距逐渐缩小,看好未来国内应用快速增长的趋势。
虽然“可灵”抢跑为快手在文生视频赛道开了一个好头,但这条道路要持续走下去,仍需要很大投入。
“未来如果‘可灵’能够延长到完整的15秒,并拥有连贯、不拖影、多元世界观融合的高质量视频,那一定会对短视频的生产方式带来变化,越来越多的创作者或许将被取代,但好内容的价值也会更高。”陈泽敏告诉记者。
热门资讯
1. 华为手机神奇“AI修图”功能,一键消除衣服!原图变身大V领深V!
最近华为手机Pura70推出的“AI修图”功能引发热议,通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗?点击查看!
近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
想将照片变成漫画效果?这篇文章分享了4个方法,包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图,简单操作就能实现,快来尝试一下吧!
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程
人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。 用户可以使...
6. 零基础10分钟生成漫画,教大家如何用AI生成自己的漫画
接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. AI视频制作神器Viggle:让静态人物动起来,创意无限!
Viggle AI是一款免费制作视频的AI工具,能让静态人物图片动起来,快来了解Viggle AI的功能和优势吧!
就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
9. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器
这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
10. 10个建筑AI工具,从设计到施工全覆盖!肯定有你从来没听过的
讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
最新文章
同学您好!