文本生成视频新模型Sora席卷全球,AI技术再次革新

发布时间:2024-05-17 19:14:03 浏览量:181次

文本生成视频新模型Sora席卷全球,AI技术再次革新

“一切来得太快,我们目前还在观望。”Rokid CEO祝铭明(musa)说,Sora带来的冲击波到底有多大,他们也在时刻关注。

Sora生成视频截图

2月16日凌晨,OpenAI正式发布他们的文本生成视频大模型Sora,其逼真的视觉效果让其在一夜之间“刷屏”,再次重现了一年前用ChatGPT轰动全世界的场景。

Sora一出场就惊艳世界,包含有细节拉满的场景、复杂的摄像机以及充满情感的角色。Sora可以理解物体在物理世界中如何存在,并准确地解释道具并生成角色来表达充满活力的情感。

Sora最主要有三个优点:60秒超长视频、单视频多角度镜头一镜到底、内容与物理世界规律保持一致。

Sora背后的工作原理

Sora实现了内容合成从文本领域、到图像领域、再到视频领域的跨越,其背后的原理为“对合成内容中最小单元进行上下文关联有意义组合”。自注意力机制、扩散模型和变换神经网络被组合在一起使用。

Sora很难将物理世界中规律一条一条在模型中显式罗列实现,而是通过对海量数据学习来隐式表达客观规律。

Sora今年底或将产生小时级文生成视频,挑战可能相对容易。

未来的文生成视频模型一定是多模态的

Sora作为世界模型也存在一些问题,最终很可能面临如何与符号型知识对齐并进行泛化性演绎的挑战。

国内外科技圈沸腾了

Sora横空出世,学术圈炸开锅了,各路大佬也纷纷开麦。

OpenAI估值达800亿美元,成为全球第三高估值的科技初创公司。

LLM(大语言模型)图据视觉中国

文本来源:潮新闻客户端

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定