发布时间:2024-03-28 18:02:11 浏览量:166次
过去这两天,我的朋友圈和各个讨论群里,都被OpenAI的Sora刷屏,这次的大招,给了全世界AI爱好者一个迎头暴击,直到现在我的脑袋还在嗡嗡作响。
不过我要提醒的是,现在OpenAI只是放出了一批实验视频和一个简单的研究论文,任何人跟你说他已经用上了 Sora,可以付费教你用Sora生成视频,都是骗子。当然,除非这个人是在OpenAI工作,或者是全球顶尖艺术家。不过这样的人,应该也不稀罕让你微信转他人民币99块。
我到今天才沉下心看完了那篇研究论文,有几点收获跟你分享一下。那篇论文不长,也不复杂,没有公式和复杂的技术原理,我让把全文翻译链接放在最后,建议你看一下,绝对没有我们高中课文的文言文难懂。
我的第一点收获是,Sora这次的效果之所以这么惊艳,并不是因为他们从零开始原创了一个模型,他们采用的还是比较主流的扩散模型。扩散模型,你可以把它简单理解为小镇做题家的刷题模式,首先学习大量的视频数据,在学习的过程中进行理解,当学习的视频足够多,即便看到一道陌生的题目,也还是能顺利关联到之前试题的知识点。与扩散模型对应的,还有GAN对抗模型,你就可以理解成 1 对 1 教学,学生做一道,老师评价和反馈看你做得好不好。
我看到OpenAI的两位科学家,也是Sora的负责人威廉·皮布尔斯和蒂姆·布鲁克斯,发推文说过去一年的劳动终于上线了。这就意味着文生视频这个项目启动已经一年了,Sora已经学习了海量的视频数据。
我想分享的第二点是,你肯定很好奇,如果大家的技术路线一致,那为什么Sora的效果要比同行高出几个层次呢?虽然企业基因论我一直觉得不靠谱,但是如果企业在某些方面曾经成功过,那么在做创新业务时,也会有很多宝贵的内部经验可以利用。
从这篇论文里看出来,Sora完全站在了OpenAI成功产品的肩膀上,往上起跳的。例如OpenAI的ChatGPT背后是个大语言模型,会把一个句子拆成若干个token,可能是一个单词,可能是一个词组,也可能是一个短句。然后通过海量的数据训练,去推测下一个最大概率的token。ChatGPT之前,没有人用这种粗暴的方式大力出奇迹。
但是这次Sora就借鉴了GPT的很多思路,直白点说,就是他们先把很多海量的视频拆成低维的时空块(patch,这个翻译成补丁/视觉块啥的都有,我个人喜欢“时空块”这个名字,听起来有点变形金刚的感觉),然后配合上GPT强大的语言能力,例如给视频块增加和扩充文字描述。当海量的训练视频都用这种时空块统一拆分学习后,来了一条新指令,就可以从不同的时空块里预测和生成新的时空块,最后再利用一个解码模型,把时空块变成生动的视频。
看到这个的时候,我突然想起了三体人,在感知到头顶上的三个太阳导致高温时,三体人可以迅速脱水,排出身体内大部分水分,变成一捆纤维素,像一张皮、一张纸那样,可以卷起来堆放。而当气候环境变好、适宜生存时,三体人将脱水的身体浸泡在水中,就能恢复原样,重新恢复为活生生的三体人。而Sora原理也是这样,把生动的视频压缩成一个个分块来训练,生成的时候先生成分块,最后再注水。
这个原理说起来简单,但是要做起来,如果没有ChatGPT的成功经验,敢于下决心这么来做可不容易。
这个不容易有三个原因,第一个当然是其他公司都没有这么做,没有成功经验就要冒风险。第二个是既然要学习ChatGPT的方式,那很多内部经验也只有在OpenAI里面才能拿到,至少大力出奇迹时可以少走一些坑。第三个是最现实的,要知道GPT4训练一次的成本是6300万美元。那还全是文本,如果是视频数据呢?这训练一次的成本肯定过亿了吧,其他几家竞品就算想到了这个方法,资金实力上也不允许这么直接烧钱。
我想说的第三点是,因为OpenAI有ChatGPT ,那可是历史上最短时间用户量过亿的产品,所以他们对人类语言的理解水平要远远高于其他几家专业的AI视频公司。再加上ChatGPT运行了一年多,输入了各国语言和不同文化背景的用户指令,他们懂得越来越多。
所以在做Sora时,其实会用一个语言模型,先把用户的指令进行扩写和改写,然后再输入到视频模型里。就相当于人类其实给了一个作文题,然后语言模型先写一篇描写场景的小作文,最后Sora根据这篇作文去生成视频。所以细节会比其他AI视频产品强太多。
听到这里,你是不是觉得有点累?觉得跟自己没有太大关系?下面我就说一下,既然Sora大家暂时都用不到,有什么事情是可以提前预习的。
我先给大家念一条Sora的视频生成提示词:“无人机拍摄的海浪拍击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。”
哪怕没有看到视频,只是听到这段话,是不是脑海里已经出现了一个海边悬崖的波澜壮阔的画面?如果你只是简单写一句“无人机拍一个海边的悬崖,悬崖上有一个灯塔”,我相信出来的视频效果肯定是买家秀和卖家秀的区别。这个视频我也放在文末的链接里了,你可以结合上面的提示词看一下,估计会有更多的收获。
在我看来,不管是文生视频,还是文生图,技术底层关注的是那个“生”字,而我们普通人,需要关注的是那个“文”字。千万不要觉得用AI生成这些东西,必须要学计算机或者理科。很多理科生短板就在表达上,文字指令写不好,出来的图和视频肯定是没有那个意境的。想想看,有文化的你输入一个“大漠孤烟直,长河落日圆”,没文化的我输入一个“沙漠的上空挂一个圆太阳”,估计AI会更容易理解你的需求。
这几天,我发现不少群里都会有朋友感叹“看到这波 AI 发展,真可惜自己是个文科生”,我强烈建议你把所谓的文科生/理科生这种非黑即白的分类抛弃掉,那是你高中高考时的分类方式,不要让 15 岁时的选择成为你一辈子的限制。如果从我的经历来看,我是个典型的理科生,从初三我就知道自己会选择数理化,高一就分班,在河南那种地狱高考难度搏杀出来,大学进的还是物理系。但是这并不影响写作成为我的一个特长。
这波 AI 革命,在我看到最大的好处就是一下子降低了很多专业技能的门槛,让我们每个人都可以发挥自己的长板。
既然知道Sora会带来AI视频的革命,那么我们现在就可以开始做三点准备。
1.持续阅读。
虽然我们不提倡功利化的阅读,但是在阅读的过程中,如果有特别有画面感的文字描述,你完全可以记录下来,作为你笔记里的一个特殊分类,标签就可以叫“这段儿值得变视频”。
举个例子,金庸老先生的小说里,有很多的段落非常有画面感。例如《书剑恩仇录》里陈家洛第一次见到美丽的香香公主的时候,场景是这么描述的:“眼前一片大湖,湖的南端又是一条大瀑布,水花四溅,日光映照,现出一条彩虹,湖周花树参差,杂花红白相间,倒映在碧绿的湖水之中,奇丽莫名。远处是大片青草平原,无边无际的延伸出去,与天相接,草地上几百只白羊在奔跑吃草。草原西端一座高山参天而起,耸入云霄,从山腰起全是皑皑白雪,山腰以下却生满苍翠树木。他凝望湖面,忽见湖水中微微起了一点漪涟,一只洁白如玉的手臂从湖中伸了上来,接着一个湿淋淋的头从水中钻出,一转头,看见了他,一声惊叫,又钻入水中。”
这就是非常好的生成视频指令素材。当你积累了几百条这种场景描述,怎么还会发愁写不出好的指令呢?
2.多看一些经典电影或者剧集。
这个跟多读书的作用类似,但是效果会更加直接明显一些。例如一些电影的精彩镜头,你完全可以通过截屏或者是片段的方式变成自己的素材库,有点儿像积累PPT的模版库。很多PPT新手之所以做得慢,是因为要准备做之前,才开始搜索和下载模板,反复纠结和尝试调整,浪费了宝贵的时间。而一些经常做PPT的高手,自己拥有非常庞大的素材库,从背景图到模板到字体,需要的时候随时调用就好了。
Sora开放的时候,肯定会支持从图片直接变视频,例如你就可以拿一张“阿甘在空旷无人、直通天际的公路上独自奔跑”的图片,让AI给你生成一段视频,把人物换成你,场景换成某个街道。
3.在有余力的情况下,学习一些剪辑/构图的入门技巧
作为普通人,我们不用学习太专业的摄影摄像知识,但是了解一些基础的构图、景别、剪辑等知识,学着用剪映等剪辑软件,把你的日常视频片段尝试剪成一个完整的小短片,会让你在未来指挥AI生成视频时更加得心应手。
既然大家都知道变革已来,咱们别捂眼当看不见,现在就可以想象一下,如果 Sora 开放出来,我们要做的第一个视频是什么。
如果实在没有想法,你把你每天的梦境记录下来,未来试试用 AI 视频成为你朋友圈里的 AI 造梦师,还是挺有意思的。相关:
OpenAI Sora 模型官方技术报告全文翻译文档
https://dedao.feishu.cn/wiki/HnBjwu4sEi687pkHcZEc9xD1nxY
热门资讯
想将照片变成漫画效果?这篇文章分享了4个方法,包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图,简单操作就能实现,快来尝试一下吧!
2. 华为手机神奇“AI修图”功能,一键消除衣服!原图变身大V领深V!
最近华为手机Pura70推出的“AI修图”功能引发热议,通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗?点击查看!
近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
4. AI视频制作神器Viggle:让静态人物动起来,创意无限!
Viggle AI是一款免费制作视频的AI工具,能让静态人物图片动起来,快来了解Viggle AI的功能和优势吧!
5. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器
这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...
6. 零基础10分钟生成漫画,教大家如何用AI生成自己的漫画
接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. AI显卡绘画排行榜:4090无悬念,最具性价比出人意料
在AI绘图领域,Stable Diffusion的显卡绘图性能备受关注。本文整理了Stable Diffusion显卡的硬件要求和性能表现,以及2023年3月显卡AI绘图效率排行榜和性价比排行榜。欢迎查看最新的AI显卡算力排行榜。
以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。 用户可以使...
就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
10. 10个建筑AI工具,从设计到施工全覆盖!肯定有你从来没听过的
讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
最新文章
同学您好!