Sora:视频生成界的规则改变者

发布时间:2024-03-28 10:29:19 浏览量:117次

前言


2024年2月16日,OpenAI突然公布了一项核弹级的成果,发布了惊的文生成视频大模型——Sora。

登录OpenAI的首页,看到一篇充满深意的Sora技术报告,标题为“视频生成模型是世界的模拟器”。该报告的结尾处有一句引人深思的话,"我们相信,Sora 如今所展现出的能力表明,持续扩展视频模型是一条通往强大模拟器的希望之路,可以模拟物理世界、数字世界以及生活在这些世界中的对象、动物和人。"

Sora的能力超乎想象,它不仅能够根据文字提示词创造出既逼真又富有想象力的场景,还能生成长达一分钟的超长视频。在此之前,Runway GEN2、Pika等AI视频工具仍在努力突破几秒视频的连贯性限制,但Sora已经以惊人的速度登顶。



接下来,我将带你深入探索Sora的多种技能及其精妙之处,让我们一起感受Sora的魅力。


Sora强大的功能展示


01扩展了采样灵活性


首先,Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型。


02改进的构图与取景


在OpenAI对Sora进行原始纵横比视频训练时,他们发现可以通过大量训练改善构图和取景。在训练后,他们自己比较了两个版本的Sora取景,所有训练视频都被裁剪成正方形。结果显示,新版本的Sora在取景方面取得了显著的进步。


03提高语言理解能力


为了解决用户发出的长短不一、千奇百怪提示词的问题,OpenAI训练模型去理解视频,并为视频加上了相应的文本标题,以确保训练数据的多样性。此外,他们还利用GPT将用户简短的提示词转换成了详细且容易理解的语句,然后发送给视频模型,让Sora能够非常准确地遵循用户的提示词来生成视频。这种方法的应用大大提高了Sora生成视频的质量和准确性。


04使用图像或视频作为参考提示


如果生成的视频与您想象的不同,或者您希望视频能够准确展现您脑海中的形象,您可以尝试提供更具体和详细的指导,尝试使用图片作为参考图片来控制生成的视频。OpenAI在技术文档中列举了一些例子,基于他们自家的图像生成DALL.E模型的图像供大家参考。这种技术Sora可以根据您提供的图片来更精准地控制生成的视频,使您的想象得以实现,让图片动起来,扩展成为视频。这展示了Sora在图像控制方面的惊人能力。


05延长生成的视频的时长


除了改善构图和取景,Sora还具备向前或向后拓展视频的能力。例如,短视频的创作者可能会觉得视频长度太短,这时他们可以对其视频进行扩展。这种扩展非常有趣,因为它可以让视频变得更加生动。在官方文档中,他们给出了一个无限循环的扩展实例,这个实例展示了Sora在扩展视频方面的强大能力。


06强大的视频剪辑能力


除了扩展视频的能力,Sora还具备惊人的视频剪辑能力。在技术文档中,他们展示了Sora能够从零镜头转换输出视频的风格与环境,这个效果相当令人震惊。这意味着Sora可以让视频创作者在不同的风格和环境中切换,从而实现更多样化的创意表现。


07连接视频


在官方文档中,Sora被运用在与两个视频中间的连接,可以实现两个环境不同,甚至可以说是毫不相干的视频之间的无缝过渡,并且这个过程在观感上非常顺畅,让人感觉AI帮助生成微电影的展望就在眼前。


08涌现出的模拟能力


OpenAI在训练Sora的过程中发现了许多有趣的能力。这些能力使得Sora能够真正地模拟物理世界中的人类、动物、环境等各种方面,而且对于各种物体,它并没有出现明显的归纳偏差。具体表现在以下几个方面:


3D一致性


Sora对于生成的具有动态视角移动的视频,随着视角的移动与旋转,人物跟场景元素都在其生成的这个三维空间内一致的移动,没有明显的误差感。


长程连贯性和对象永恒性


Sora的另一个令人震惊的功能是,在更多的情况下,它能够有效地模拟短程和长程的依赖。这意味着,如果一个人在视频中生成,他就成为了一个拥有自己专属属性的个体。即使他目前不在视角范围内,过几十秒再次出现,他的样貌、穿着等也不会发生改变。这种功能可以让视频创作者更轻松地控制视频中的元素,从而实现更加丰富的创意表达。


与现实世界的互动性

Sora可以与现实世界进行简单的物理互动。尽管不能涉及太深入,OpenAI也承认在这方面做得还不够完美。


模拟数字世界

通过大型模型来模拟数字世界的能力是在Sora的训练过程中涌现出来的。这种能力使得Sora能够更好地与虚拟世界进行互动,展现了其在数字模拟方面的潜力。


不过,Sora也并非全是优点,比如可能难以准确模拟复杂场景的物理原理或把握因果关系。空间细节也不存在,因为该模型还可能混合左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。毕竟电脑生成的不一定能把握住所有的现实世界的物理细节。


对行业有哪些颠覆性的改变?


Sora展现出来的强大的能力,让其具有非常广泛的应用前景。它为娱乐和媒体产业、教育和培训、广告和营销、模拟和培训、内容创作、视频编辑和后期制作等多个领域提供了创新的工具。


娱乐和媒体产业

Sora可以为电影制作、视频游戏开发和其他形式的娱乐提供前所未有的创新可能性。它能够生成定制的视频内容,为故事叙述和视觉效果带来革命性的变化。


教育和培训领域

Sora可以用来创建教学视频,根据学生的需要定制内容,使学习体验更加个性化和互动。


广告和营销领域

Sora能够根据品牌的需求生成吸引人的广告视频,大大降低内容创作的成本和时间,同时提高广告的创意和个性化水平。


模拟和培训领域

Sora可以创建逼真的训练视频,帮助专业人员在安全的虚拟环境中学习和练习。


内容创作领域

Sora提供了一种快速、高效创建高质量视频内容的方法,无论是用于社交媒体、教育平台还是个人娱乐。


视频编辑和后期制作领域

Sora的能力意味着在视频编辑和后期制作过程中,创作者可以更容易地修改和改进视频内容,甚至从头创造全新的场景和效果。


总的来说,Sora在AR、VR、VisionPro等领域有非常广泛的应用前景。Sora为多个行业提供了创新的工具,使得视频内容的创作、编辑和定制变得更加高效和灵活。这不仅为现有的行业带来颠覆性的改变,也为创新者和企业家创造了新的商业机会。而Sora将彻底颠覆传统电影、动画、广告行业,早一步将Sora应用到自己企业中将获得极大的先发优势。


Sora 的发布标志着人工智能技术迈入了一个新的时代。它不仅为我们提供了一个全新的创作工具,更是为我们打开了一扇通往未来的大门。让我们一起期待,Sora 及其跟随者们来如何改变我们的世界。


参考资料:OpenAI官网

https://openai.com/research/video-generation-models-as-world-simulators

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定