发布时间:2024-03-28 10:29:19 浏览量:117次
前言
2024年2月16日,OpenAI突然公布了一项核弹级的成果,发布了惊艳的文生成视频大模型——Sora。
登录OpenAI的首页,看到一篇充满深意的Sora技术报告,标题为“视频生成模型是世界的模拟器”。该报告的结尾处有一句引人深思的话,"我们相信,Sora 如今所展现出的能力表明,持续扩展视频模型是一条通往强大模拟器的希望之路,可以模拟物理世界、数字世界以及生活在这些世界中的对象、动物和人。"
Sora的能力超乎想象,它不仅能够根据文字提示词创造出既逼真又富有想象力的场景,还能生成长达一分钟的超长视频。在此之前,Runway GEN2、Pika等AI视频工具仍在努力突破几秒视频的连贯性限制,但Sora已经以惊人的速度登顶。
接下来,我将带你深入探索Sora的多种技能及其精妙之处,让我们一起感受Sora的魅力。
Sora强大的功能展示
首先,Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920p 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型。
在OpenAI对Sora进行原始纵横比视频训练时,他们发现可以通过大量训练改善构图和取景。在训练后,他们自己比较了两个版本的Sora取景,所有训练视频都被裁剪成正方形。结果显示,新版本的Sora在取景方面取得了显著的进步。
为了解决用户发出的长短不一、千奇百怪提示词的问题,OpenAI训练模型去理解视频,并为视频加上了相应的文本标题,以确保训练数据的多样性。此外,他们还利用GPT将用户简短的提示词转换成了详细且容易理解的语句,然后发送给视频模型,让Sora能够非常准确地遵循用户的提示词来生成视频。这种方法的应用大大提高了Sora生成视频的质量和准确性。
如果生成的视频与您想象的不同,或者您希望视频能够准确展现您脑海中的形象,您可以尝试提供更具体和详细的指导,尝试使用图片作为参考图片来控制生成的视频。OpenAI在技术文档中列举了一些例子,基于他们自家的图像生成DALL.E模型的图像供大家参考。这种技术Sora可以根据您提供的图片来更精准地控制生成的视频,使您的想象得以实现,让图片动起来,扩展成为视频。这展示了Sora在图像控制方面的惊人能力。
除了改善构图和取景,Sora还具备向前或向后拓展视频的能力。例如,短视频的创作者可能会觉得视频长度太短,这时他们可以对其视频进行扩展。这种扩展非常有趣,因为它可以让视频变得更加生动。在官方文档中,他们给出了一个无限循环的扩展实例,这个实例展示了Sora在扩展视频方面的强大能力。
除了扩展视频的能力,Sora还具备惊人的视频剪辑能力。在技术文档中,他们展示了Sora能够从零镜头转换输出视频的风格与环境,这个效果相当令人震惊。这意味着Sora可以让视频创作者在不同的风格和环境中切换,从而实现更多样化的创意表现。
在官方文档中,Sora被运用在与两个视频中间的连接,可以实现两个环境不同,甚至可以说是毫不相干的视频之间的无缝过渡,并且这个过程在观感上非常顺畅,让人感觉AI帮助生成微电影的展望就在眼前。
OpenAI在训练Sora的过程中发现了许多有趣的能力。这些能力使得Sora能够真正地模拟物理世界中的人类、动物、环境等各种方面,而且对于各种物体,它并没有出现明显的归纳偏差。具体表现在以下几个方面:
3D一致性
Sora对于生成的具有动态视角移动的视频,随着视角的移动与旋转,人物跟场景元素都在其生成的这个三维空间内一致的移动,没有明显的误差感。
长程连贯性和对象永恒性
Sora的另一个令人震惊的功能是,在更多的情况下,它能够有效地模拟短程和长程的依赖。这意味着,如果一个人在视频中生成,他就成为了一个拥有自己专属属性的个体。即使他目前不在视角范围内,过几十秒再次出现,他的样貌、穿着等也不会发生改变。这种功能可以让视频创作者更轻松地控制视频中的元素,从而实现更加丰富的创意表达。
与现实世界的互动性
Sora可以与现实世界进行简单的物理互动。尽管不能涉及太深入,OpenAI也承认在这方面做得还不够完美。
模拟数字世界
通过大型模型来模拟数字世界的能力是在Sora的训练过程中涌现出来的。这种能力使得Sora能够更好地与虚拟世界进行互动,展现了其在数字模拟方面的潜力。
不过,Sora也并非全是优点,比如可能难以准确模拟复杂场景的物理原理或把握因果关系。空间细节也不存在,因为该模型还可能混合左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。毕竟电脑生成的不一定能把握住所有的现实世界的物理细节。
对行业有哪些颠覆性的改变?
Sora展现出来的强大的能力,让其具有非常广泛的应用前景。它为娱乐和媒体产业、教育和培训、广告和营销、模拟和培训、内容创作、视频编辑和后期制作等多个领域提供了创新的工具。
娱乐和媒体产业
Sora可以为电影制作、视频游戏开发和其他形式的娱乐提供前所未有的创新可能性。它能够生成定制的视频内容,为故事叙述和视觉效果带来革命性的变化。
教育和培训领域
Sora可以用来创建教学视频,根据学生的需要定制内容,使学习体验更加个性化和互动。
广告和营销领域
Sora能够根据品牌的需求生成吸引人的广告视频,大大降低内容创作的成本和时间,同时提高广告的创意和个性化水平。
模拟和培训领域
Sora可以创建逼真的训练视频,帮助专业人员在安全的虚拟环境中学习和练习。
内容创作领域
Sora提供了一种快速、高效创建高质量视频内容的方法,无论是用于社交媒体、教育平台还是个人娱乐。
视频编辑和后期制作领域
Sora的能力意味着在视频编辑和后期制作过程中,创作者可以更容易地修改和改进视频内容,甚至从头创造全新的场景和效果。
总的来说,Sora在AR、VR、VisionPro等领域有非常广泛的应用前景。Sora为多个行业提供了创新的工具,使得视频内容的创作、编辑和定制变得更加高效和灵活。这不仅为现有的行业带来颠覆性的改变,也为创新者和企业家创造了新的商业机会。而Sora将彻底颠覆传统电影、动画、广告行业,早一步将Sora应用到自己企业中将获得极大的先发优势。
Sora 的发布标志着人工智能技术迈入了一个新的时代。它不仅为我们提供了一个全新的创作工具,更是为我们打开了一扇通往未来的大门。让我们一起期待,Sora 及其跟随者们来如何改变我们的世界。
参考资料:OpenAI官网
https://openai.com/research/video-generation-models-as-world-simulators
热门资讯
想将照片变成漫画效果?这篇文章分享了4个方法,包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图,简单操作就能实现,快来尝试一下吧!
2. 华为手机神奇“AI修图”功能,一键消除衣服!原图变身大V领深V!
最近华为手机Pura70推出的“AI修图”功能引发热议,通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗?点击查看!
近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle:让静态人物动起来,创意无限!
Viggle AI是一款免费制作视频的AI工具,能让静态人物图片动起来,快来了解Viggle AI的功能和优势吧!
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器
这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. 零基础10分钟生成漫画,教大家如何用AI生成自己的漫画
接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. AI显卡绘画排行榜:4090无悬念,最具性价比出人意料
在AI绘图领域,Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现,以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。 用户可以使...
就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
10. 10个建筑AI工具,从设计到施工全覆盖!肯定有你从来没听过的
讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
同学您好!