理解Stable Diffusion技术的运行原理和AI绘画生成过程

发布时间:2024-06-08 10:22:03 浏览量:226次

理解Stable Diffusion技术的运行原理和AI绘画生成过程

AIGC热潮正席卷而来,Stable Diffusion开源发布提高了AI图像生成的高度,引入ControlNet和T2I-Adapter控制模块提高了生成可控性,正在改变部分行业生产模式。本文整理了学习过程中记录的技术内容,主要解析了Stable Diffusion技术运行机制,旨在帮助大家深入了解。

图1 两个stable diffusion例子

Stable Diffusion是2022年发布的文本到图像潜在扩散模型,由CompVis、Stability AI和LAION的研究人员创建。Stable Diffusion提出者StabilityAI公司在2022年10月完成了10亿美元融资,估值已超过10亿美元。本文将重点介绍Stable Diffusion技术思路和重要模块运行机制。

背景介绍

AI绘画作为AIGC的一个应用方向,在2022年以来成为AI领域热门话题。AI绘画借助其独特创意和便捷工具走红,受到广泛关注。

原理简介

Stable Diffusion技术作为Diffusion改进版本,解决了Diffusion的速度瓶颈,可用于文生成图、图生成图、特定角色刻画,甚至超分或上色任务。本文重点介绍文生成图任务,解析Stable Diffusion计算思路和重要组成模块。

图2 Stable Diffusion组成

Stable Diffusion核心思想是利用文本中的分布信息逐步去噪,生成匹配文本信息的图片。它包含多个模型子模块,主要包括文本编码器、图片信息生成器和图片解码器。

模块分析

1. Unet网络

Stable Diffusion采用UNetModel模型,通过Encoder-Decoder结构预估噪声,具体网络结构详见图5。

图5 Unet网络结构示意图

UNetModel模型的训练目标是去噪,训练集可通过向普通照片添加噪声获得。训练后,从加噪图片预测噪声,通过去除噪声来恢复原始图片,生成清晰的图片。

2. 采样器迭代

采样阶段是对加噪后图片去噪,得到生成图片的潜在空间表示。采样器采用贝叶斯公式计算逆向过程分布和预估分布的KL散度差异,通过重参数技巧生成图片。

3. CLIP模型

CLIP模型用于提取语义信息,用于训练配对的图片和文字,训练目标是预测图文是否匹配。完成训练后,输入配对的图片和文字,CLIP模型能输出相似的向量。

本文小结

AI绘画领域不断发展,Stable Diffusion技术将AI绘画推向新高度。通过了解其技术原理和模块运行机制,我们能更好地控制AI绘画生成,预期AI在不断迭代发展中将有更多惊喜。

参考链接

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

The Illustrated Stable Diffusion: Visualizing machine learning one concept at a time

由浅入深了解Diffusion Model

Denoising Diffusion Probabilistic Models

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定