LCM/LCM-LoRA实时图像生成技术革新,速度飞跃!-火星时代教育

发布时间:2024-08-14 18:40:37 浏览量:204次

机器之心报道

编辑:张倩、陈萍

生成式模型进入「实时」时代?

文生图、图生图已经不再是新鲜事。但使用这类工具时,我们往往要忍受等待才能看到生成结果。

最近,一种名为「LCM」的模型改变了这一现状,实现了实时的连续图像生成。

LCM图片
LCM图片

图源:https://twitter.com/javilopen/status/1724398666889224590

LCM全称为Latent Consistency Models(潜在一致性模型),由清华大学交叉信息研究院的研究者们构建。LCM能将主流文生图模型的效率提高5-10倍,实现了实时图像生成。

LCM图片

该文章发布一个月内浏览量超百万,作者也被邀请在Hugging Face、Replicate、浦源等多个平台展示新研发的LCM模型和demo。

LCM-LoRA技术进一步改进了LCM的快速采样能力,为多模型提供了有效的解决方案,实现了实时图像生成效果。

LCM-LoRA图片

技术报告链接:https://arxiv.org/pdf/2311.05556.pdf

潜在一致性模型的快速生成能力开启了图像生成技术新局面。用户可以根据输入的文本处理和渲染实时捕捉到的画面,实现高速图像生成,实现自定义展示场景或视觉效果。

X平台上研究者展示了利用该模型实现的图像生成效果,包括图生图、视频生成等应用。

LCM图片

图源:https://twitter.com/javilopen/status/1724398666889224590

LCM图片

图源:https://twitter.com/javilopen/status/1724398708052414748

LCM图片

LCM的代码已开源,在Hugging Face官方仓库中也有相关支持。LCM模型在文生图模型热度中名列前茅。

LCM图片

接下来,我们将介绍LCM和LCM-LoRA这两项研究成果。

LCM:只用几步推理就能生成高分辨率图像

在AIGC时代,扩散模型如Stable Diffusion和DALL-E 3备受关注。然而,扩散模型生成图片通常需要多步采样,过程较慢,推理成本高。

一致性模型为解决该问题提供了思路,但局限于无条件图片生成。LCM的出现弥补了这一不足,支持给定条件的图像生成任务。

LCM要求对常微分方程进行直接单步求解,理论上可在单步内生成图像。

LCM图片

LCM的训练通过微调预训练的扩散模型,在极少资源消耗下赋予模型快速生成效果。其中,使用自动编码器来编码图片到潜在空间,并采用无分类器引导、跳步策略等关键技术。

LCM生成的图像

LCM-LoRA:一个通用的Stable Diffusion加速模块

LCM-LoRA建立在LCM基础上,通过LoRA等高效微调技术训练模型。它展示了强大的泛化能力,支持各种微调的SD模型和LoRA。

LCM-LoRA图片

LCM-LoRA概况图。通过在LCM的蒸馏过程中引入LoRA,降低蒸馏的内存开销,使得能够训练更大的模型,如SDXL和SSD-1B。

LCM-LoRA技术方法改善了模型的生成效果,展示出强大的泛化能力和优越性。

团队介绍

论文作者来自清华叉院,两位共一作分别是骆思勉、谭亦钦。

骆思勉毕业于复旦大学大数据学院,研究方向为多模态生成模型。谭亦钦毕业于清华大学电子工程系,研究方向包括深度强化学习。

指导老师包括清华交叉信息院副教授李建、黄隆波,助理教授赵行。

团队图片

第一行(从左到右):骆思勉、谭亦钦。第二行(从左到右):黄隆波、李建、赵行。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定