揭秘神奇视频生成工具Sora,1分钟一镜到底是怎么回事?

发布时间:2024-05-22 14:00:07 浏览量:121次

最近,OpenAI 推出了全新的AI视频生成工具Sora,一经亮相就引发了热烈关注。

就连马斯克也对Sora的强大功能赞不绝口,预言未来几年人类将借助AI创作出更加出色的作品。

Sora的强大之处在于能根据文本描述,生成长达1分钟的连贯流畅视频,展现出细腻的场景、生动的角色表现和复杂的镜头运动。

与其他只能生成短视频的工具相比,Sora的一分钟视频时长可谓独树一帜。

不仅如此,Sora在视频真实性、长度、稳定性、分辨率和对文本理解方面都达到了目前的最佳水准。让我们先欣赏一段官方演示视频片段。

提示:美丽而雪白的东京城市熙熙攘攘。摄像头穿越熙熙攘攘的城市街道,跟随着几个人在美丽的雪天享受购物。绚丽的樱花花瓣随着风和雪花一起飘扬。

在这段视频中,无人机镜头下,一对情侣在繁华的城市街道穿行,美丽的樱花花瓣随着雪花飘落。

当其他工具还在苦苦维持单一镜头稳定时,Sora已经游刃有余地实现多镜头的无缝切换,且切换连贯性和对象一致性效果遥遥领先。

▲源自 @gabor

过去,制作这样的视频可能需要耗费大量时间和精力进行剧本创作和分镜头设计等繁琐工作。而如今,只需简单的文本描述,Sora就能轻松生成这种华丽场面,相关从业者可能已感到压力山大。

网友@debarghya_das使用OpenAI Sora剪辑、David Attenborough的声音和Youtube上的音乐样本,仅用15分钟就制作了这个20秒的预告片。

Sora是如何实现强大效果的?

OpenAI发布了一份关于Sora详细的技术报告,详细介绍了其背后的技术原理和应用。

那么,Sora是如何实现这一突破的呢?受LLM成功实践经验的启发,OpenAI引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够显著提升生成模型处理多样化视频和图像数据的能力。

Sora在压缩后的潜在空间中进行训练,能以不同分辨率、持续时间及宽高比生成视频内容。这种处理方式使得预测和处理视频更加高效和精确。

探索AI的下一个方向 - 世界模型

OpenAI发现,在大规模训练下,Sora展现出了一系列引人注目的能力,能够在一定程度上模拟真实世界中的人、动物和环境。

这种能力是由大规模数据驱动产生的,能生成连贯的三维空间、保持物体连续性以及模拟数字世界。

  • 三维空间的连贯性
    Sora能生成带有动态视角变化的视频,人物和元素在不同角度下保持连贯性。
  • 远距离连续性与物体持久性
    Sora能保持视频的连续性,即使物体被遮挡或离开画面。
  • 数字世界的模拟
    Sora能模拟数字化过程,如视频游戏。

OpenAI视Sora为能够理解和模拟现实世界的模型的基础,相信其能力将是实现AGI的重要里程碑。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定