OpenAI推出视频生成模型Sora,一句文本描述即可生成17秒樱花视频

发布时间:2024-03-28 15:50:49 浏览量:210次

当地时间 2 月 15 日,OpenAI 发布了一个名为 Sora 的新型视频生成模型。它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。



图 | Sora 所生成视频的截图(来源:Sora)


在新闻公布之前,OpenAI 给《麻省理工科技评论》发送了四份样片。这家总部位于旧金山的公司已然再次定义了“文本到视频生成”的可能性:这是一个热门的研究方向,《麻省理工科技评论》将其视为 2024 年值得关注的科技发展趋势之一。


OpenAI 的科学家蒂姆·布鲁克斯(Tim Brooks)说:“我们认为,建立能够理解视频的模型,并理解我们世界中所有这些非常复杂的交互,对于未来所有的人工智能系统而言,是非常重要的一步。”


但 OpenAI 给我们分享的视频附加了严格的保密条件。如果我们想提前看到有关 Sora(日语苍穹的意思)的信息,就必须等到该模型的消息公开发表之后,才能咨询和征求外部专家的意见。


OpenAI 尚未发布有关 Sora 的详细技术报告,也未解释或证明该模型如何有效。它还表示不会很快向公众发布 Sora。以下是我们收到的视频片段:


第一个可以从文本中生成视频的生成式人工智能模型出现在 2022 年末。但 Meta、谷歌和一家名为 Runway 的初创公司的早期成果充满了各种小问题,看起来也比较粗糙。


自那以后,这项技术发展得很快。Runway 在 2023 年发布的 Gen-2 模型可以制作质量接近大型工作室动画的短片。但大多数成果仍然只有几秒钟长。


而 OpenAI Sora 的演示视频是高清的,充满了丰富的细节。OpenAI 还表示,它可以生成长达一分钟的视频。


一段东京街头场景的视频显示,Sora 已经学会了三维世界中的物体是如何组合在一起的:当一对夫妇路过一排商店时,摄像机会切入这个场景并跟随他们。


OpenAI 还表示 Sora 能够很好地处理遮挡。现有模型的一个问题是,当一些物体从视线中消失后,它们可能无法继续跟踪这些物体。例如,如果一辆卡车从路牌前面经过,路牌可能就彻底消失了。


在一段纸制水下场景的视频中,Sora 在不同镜头之间进行了无缝转换,模型在它们之间保持了一致的风格。


当然,Sora 生成的视频还不完美。在东京的视频中,左边的汽车看起来比旁边的人还小。它们也会在树枝之间进进出出。


布鲁克斯说:“在长期一致性方面,肯定还有一些工作要做。例如,如果有人长时间离开视线,他们就不会再出现了。模型有点忘记了他们应该出现在那里。”


尽管我们看到的视频片段很惊艳,但这些展示视频无疑是经过精心挑选的,以展示 Sora 的最佳表现。


如果没有更多详细信息,我们很难知道它们在多大程度上代表了模型的平均水平。


我们可能还需要一段时间才能清楚地知道 Sora 的水平。OpenAI 今天宣布的有关 Sora 的消息,更像是一次科技圈的造势。


该公司表示,目前没有向公众发布 Sora 的计划,但它将首次开始与第三方安全测试人员共享该模型。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定