爆火!最强Text-to-3D开源方案LucidDreamer:毛发都给你合成出来

发布时间:2024-03-24 19:39:10 浏览量:184次

作者:泡椒味的口香糖 | 来源:3D视觉工坊

在公众号「3D视觉工坊」后台,回复「原论文」可获取论文pdf、代码链接

添加微信:dddvisiona,备注:NeRF,拉你入群。文末附行业细分群

0. 笔者个人体会

最近单图像合成3D、文本合成3D等等工作可谓大火,不停的看见"10秒/45秒/1分钟内合成高保真3D模型"的标题,大多数都是基于扩散模型和NeRF二次开发的,官方主页展示的交互式demo也确实效果拔群。

但是大多数方案合成的3D模型还是太过于平滑了,对于毛发、皮肤纹理、金属质感这种高频细节处理的不太好,很难说达到了照片级渲染。今天笔者将为大家分享香港科技大学、之江实验室、浙江大学最新开源的工作LucidDreamer,合成的模型非常精细!

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

给定文本提示,LucidDreamer可以合成高保真的3D模型,可以发现合成的模型真的是很精细了,保留了非常多的高频细节。3D建模师又要睡不着觉了~这里也推荐工坊推出的新课程零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]》

2. 具体原理是什么?

现有Text-to-3D方案在渲染3D模型的高频细节上处理效果不太好,这是因为现有方案大多基于SDS(Score Distillation Sampling)进行,造成了模型的过度平滑。

因此,作者换了一个技术路线:提出一种区间得分匹配(Interval Score Matching,ISM)的新方法。ISM采用确定性的扩散轨迹,并利用基于区间的得分匹配来抵消过度平滑。此外,还将3D高斯splatting(ACM SIGGRAPH 2023会议最佳论文)融入到文本到3D中来提高渲染速度。

具体的框架是,首先通过预训练的text-to-3D生成器初始化3D表示θ(实际操作用的是高斯splatting),结合预训练的2D去噪扩散概率模型,使用DDIM反演将随机视图扰动为无条件噪声的潜在轨迹,最后使用作者提出的ISM来更新θ。

3. 再来看看和同类方法的对比

看一下和同类text-to-3D的效果对比,其他方案要么出现了语义歧义,要么渲染速度过慢。

作者提出的ISM和同类SDS策略的对比,可以发现ISM很大程度上预测了3D物体的高频细节,使得模型更贴近照片级渲染!

作者还展示了ISM的应用价值,包括2D/3D编辑、3D虚拟任务生成、个性化3D生成,进一步扩展了这项工作的意义。这里也推荐工坊推出的新课程零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]》

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~


热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定