AI绘画原理分析与创新应用技术介绍

发布时间：2024-08-06 13:02:50 浏览量：175次

相比于之前谈到的ChatGPT，AI绘画个人感觉原理相对难以理解一些。ChatGPT或者常规的GPT模型来说，是输入一段文字，输出后面的文字。而AI绘画当前主流的状态为，输入一段文字，输出一个图像。

AI绘画的原理

对于AI的生成模型来说，ChatGPT的原理是自回归，而AI绘画当前的原理是稳定扩散。我打算先从比较好理解的自回归来说起。

不得不说，自从接触了稳定扩散，自回归这种模型，已经成为比较好理解的模型了，毕竟十分贴近于传统理论。

对于一个时间序列来说，假设我们有一个模型，可以仅从前面一段时间的状态，预测下一个时刻的状态，则可以称作这个模型为自回归模型。

ChatGPT在最原本的时候，就是一个单纯的自回归模型，输入一段文字，输出下一个字应该是什么，或者最大概率是什么。当然，对于模型来说，会通过采样的方式保持一定的随机性，而不是每次都选取概率最大的结果，这也是问两次一样的问题，会得出不同的答案的原因。

这个时候，很容易让人联想到股票市场的模型，输入一段时间的股票价格，输出下一个时刻的股票价格。很遗憾，这个想法比较美好，很遗憾，现实是股票价格并没有像人类语言一样确定性这么高，历史数据往往带来过拟合，单纯价格的历史也并不能代表未来。

那么，这种模型在股票市场不适用，是否可以用于绘画呢？答案是可以。

从链接中可以看到，使用GPT模型，是可以生成一段图像的。对于模型来说，语言和图像并没有本质的不同，相比于聊天机器人，图像的生成将输入的文字转变为输入图像的像素点，模型同样是输出接下来概率最大的输出是什么。比如对于图像来说，就是给定一定的RBG状态，输出接下来是什么。比如：

具体的可以参考Open AI的官网
https://openai.com/blog/image-gpt/

自回归这种模型，看起来就更适合用于语言模型，或者音频模型，毕竟在真实世界里面，模型处理的数据就是有时序的。而对于图像来说，上下之间的时序关系往往没有那么明显。所以现在主流的AI绘画，并没有使用类似ChatGPT的自回归模型，而是更普通一点的神经网络。但最近AI绘画能力大幅提升的原因，主要来自于训练的方法。

生成对抗网络 vs 稳定扩散

对于训练过程，每一次训练的任务，都有唯一的答案。但对于生成模型来说，答案可能不是唯一的，就是一般认为的拿到一部分资料，生成的输出言之成理即可。比如对于上面GPT生成的图片，一些不像原图的答案，也是合理的答案。那么，模型如此对待自己产生的各种答案呢？接下来讲两种方法。

第一种方法是相当于是学生答完题，老师来判卷。——生成对抗网络

第二种方法是学生在答题过程中，老师实时引导学生往正确答案方向。——稳定扩散

生成对抗网络

在过去，生成对抗网络应对输出不唯一的情形是非常主流的方法。主要的思路是，在训练一个生成网络来产生答案的同时，训练一个与其对抗的判别网络来判别答案是不是真的。比如，在AI绘画领域，判别网络的任务就是判断这幅画是不是AI生成的，在语音合成领域，就是判断合成的语音是不是真人的语音。在一段时间内，生成对抗网络取得了很多优秀的成果，包括现在我们感受到的很多电话机器人的声音，都是生成对抗网络的训练结果。

对抗网络一般只判别生成的结果是否真实，对于具体生成的内容是否正确，则可以由具体内容进行判断。比如生成一只猫的图片，对抗网络只管它是否是真实的图片，对于它是否是一只猫，则由其他的判据来告诉模型。这就导致了一个问题，生成对抗网络在生成图片的时候，比较单一，生成模型总是倾向于输出容易“糊弄”判别模型的结果。

在改进了这一缺点之后，基于稳定扩散的AI绘画生成模型成为了当下的主流。

稳定扩散

基于统计模型的深度学习理论，从深度学习创始之初，就比较难理解。如果你已经理解了生成对抗网络的训练方式，可以想象稳定扩散把生成对抗网络的判别器，以统计的方式消融到生成器训练的每一阶段。

在稳定扩散的过程中，假设原图处理有encoder-decoder两个过程，在encoder过程中，每一步在图像上加上白噪声，最终，图像就是白噪声。在decoder过程中，假设每一步消除一点白噪声，最终图像恢复成原有的样子。在推理的过程中，模型只需要输入一段白噪声，就能生成一张图片。这时，生成的图片未必有什么意义，但模型保证的是这个图片看起来比较合理。

最终使用时，给模型输入白噪声的同时，还会需要输入一段文字。这时，模型会在输出一个合理图片的同时使得这个图片符合这段输入文字的描述，也就是我们现在所谓吟唱的过程。

实际应用

具体操作方式可以参考下一发布，这次先粘贴几个普通应用，输入一些文字，输出一些绘画结果。

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇生成更美图像、直出分钟级视频，国产自研DiT架构的越级之旅

热门课程推荐

热门资讯

1. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
2. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
3. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程

人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
5. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
6. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
9. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
10. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...