AI绘画原理分析与创新应用技术介绍

发布时间:2024-08-06 13:02:50 浏览量:166次

相比于之前谈到的ChatGPT,AI绘画个人感觉原理相对难以理解一些。ChatGPT或者常规的GPT模型来说,是输入一段文字,输出后面的文字。而AI绘画当前主流的状态为,输入一段文字,输出一个图像

AI绘画的原理

对于AI的生成模型来说,ChatGPT的原理是自回归,而AI绘画当前的原理是稳定扩散。我打算先从比较好理解的自回归来说起。

不得不说,自从接触了稳定扩散,自回归这种模型,已经成为比较好理解的模型了,毕竟十分贴近于传统理论。

对于一个时间序列来说,假设我们有一个模型,可以仅从前面一段时间的状态,预测下一个时刻的状态,则可以称作这个模型为自回归模型。

ChatGPT在最原本的时候,就是一个单纯的自回归模型,输入一段文字,输出下一个字应该是什么,或者最大概率是什么。当然,对于模型来说,会通过采样的方式保持一定的随机性,而不是每次都选取概率最大的结果,这也是问两次一样的问题,会得出不同的答案的原因。

这个时候,很容易让人联想到股票市场的模型,输入一段时间的股票价格,输出下一个时刻的股票价格。很遗憾,这个想法比较美好,很遗憾,现实是股票价格并没有像人类语言一样确定性这么高,历史数据往往带来过拟合,单纯价格的历史也并不能代表未来。

那么,这种模型在股票市场不适用,是否可以用于绘画呢?答案是可以

从链接中可以看到,使用GPT模型,是可以生成一段图像的。对于模型来说,语言和图像并没有本质的不同,相比于聊天机器人,图像的生成将输入的文字转变为输入图像的像素点,模型同样是输出接下来概率最大的输出是什么。比如对于图像来说,就是给定一定的RBG状态,输出接下来是什么。比如:

具体的可以参考Open AI的官网
https://openai.com/blog/image-gpt/

自回归这种模型,看起来就更适合用于语言模型,或者音频模型,毕竟在真实世界里面,模型处理的数据就是有时序的。而对于图像来说,上下之间的时序关系往往没有那么明显。所以现在主流的AI绘画,并没有使用类似ChatGPT的自回归模型,而是更普通一点的神经网络。但最近AI绘画能力大幅提升的原因,主要来自于训练的方法

生成对抗网络 vs 稳定扩散

对于训练过程,每一次训练的任务,都有唯一的答案。但对于生成模型来说,答案可能不是唯一的,就是一般认为的拿到一部分资料,生成的输出言之成理即可。比如对于上面GPT生成的图片,一些不像原图的答案,也是合理的答案。那么,模型如此对待自己产生的各种答案呢?接下来讲两种方法。

第一种方法是相当于是学生答完题,老师来判卷。——生成对抗网络

第二种方法是学生在答题过程中,老师实时引导学生往正确答案方向。——稳定扩散

生成对抗网络

在过去,生成对抗网络应对输出不唯一的情形是非常主流的方法。主要的思路是,在训练一个生成网络来产生答案的同时,训练一个与其对抗的判别网络来判别答案是不是真的。比如,在AI绘画领域,判别网络的任务就是判断这幅画是不是AI生成的,在语音合成领域,就是判断合成的语音是不是真人的语音。在一段时间内,生成对抗网络取得了很多优秀的成果,包括现在我们感受到的很多电话机器人的声音,都是生成对抗网络的训练结果。

对抗网络一般只判别生成的结果是否真实,对于具体生成的内容是否正确,则可以由具体内容进行判断。比如生成一只猫的图片,对抗网络只管它是否是真实的图片,对于它是否是一只猫,则由其他的判据来告诉模型。这就导致了一个问题,生成对抗网络在生成图片的时候,比较单一,生成模型总是倾向于输出容易“糊弄”判别模型的结果。

在改进了这一缺点之后,基于稳定扩散的AI绘画生成模型成为了当下的主流。

稳定扩散

基于统计模型的深度学习理论,从深度学习创始之初,就比较难理解。如果你已经理解了生成对抗网络的训练方式,可以想象稳定扩散把生成对抗网络的判别器,以统计的方式消融到生成器训练的每一阶段。

在稳定扩散的过程中,假设原图处理有encoder-decoder两个过程,在encoder过程中,每一步在图像上加上白噪声,最终,图像就是白噪声。在decoder过程中,假设每一步消除一点白噪声,最终图像恢复成原有的样子。在推理的过程中,模型只需要输入一段白噪声,就能生成一张图片。这时,生成的图片未必有什么意义,但模型保证的是这个图片看起来比较合理。

最终使用时,给模型输入白噪声的同时,还会需要输入一段文字。这时,模型会在输出一个合理图片的同时使得这个图片符合这段输入文字的描述,也就是我们现在所谓吟唱的过程。

实际应用

具体操作方式可以参考下一发布,这次先粘贴几个普通应用,输入一些文字,输出一些绘画结果。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定