OpenAi Sora AI生成视频技术文档解读

发布时间:2024-03-28 14:33:09 浏览量:219次

2月15日,OpenAi公司发布了新一代的文本生成视频的AI大模型Sora。技术文档同时也发布在了他的官网上。技术文档中主要粗略概括了Sora的技术实现路径和应用场景。

大语言模型的基础是语言是由一个个的词块(text token)组成,有了词块我们才可以训练机器已更好的方式组织这些词块。相比较而言,Sora作为一个视频生成模型,他的基础是视觉块(visual patches)。她的主要原理是将训练视频转换成视觉块,然后将解析好的视觉块再进行转换。


在生成视频的时候,Sora主要采用的是Diffusion Model。这个model在语言识别,机器视觉以及图片生成有重要的作用。在视频生成方面,Diffusion Model也很有用处


Sora除了通过文本生成视频,也可以通过上传图片生成视频。下图是用图片生成的一个视频



原图

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
    点击按住可拖动视频

    Prompt:Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

    同样的使用国内的生成视频工具也生成了视频(
    https://makepixelsdance.github.io/),效果如下

    重播
    播放
    00:00 / 00:00 直播
    00:00
    进入全屏
    50
      点击按住可拖动视频

      生成效果也挺好,不过这些怪物不如OpenAi里面那些怪物的动作幅度大。OpenAi生成的视频里面的怪物更加有喜感一些。

      其它的Sora也可以进行视频的拼接以及增加特效等。

      当然,在技术文档中OpenAI也说到了Sora的局限性,在模拟物理世界的一些现象的时候仍然不如人意,比如玻璃被摔碎的现象等。

      总的说来,对于这个领域的专家,笔者感觉,这次的发布并没有很惊艳的感觉。AI生成视频的工作还有很多的工作要做。

      热门课程推荐

      热门资讯

      请绑定手机号

      x

      同学您好!

      您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
      确定