当一张图片遇到了AI，一切都变的复杂

发布时间：2024-03-17 10:55:03 浏览量：221次

背景

在视觉设计领域中，设计师们往往会因为一些简单需求付出相当多的时间，比如修改文案内容，设计简单的海报版式，针对不同机型、展位的多尺寸拓展等。这些工作需要耗费大量的时间、人力成本（5~6张/人日），但对设计师的进步成长起到的作用却非常有限。另一方面，精准营销是未来的大趋势，在大流量背景下，首页的海报资源展位需要展示“千人千面”的效果，这对海报的生产效率也提出了非常高的要求。所以，我们美团外卖技术团队尝试结合AI技术，来协助设计师避免这种低收益、高重复的任务，同时低成本、高效率、高质量地完成海报图片的生成。本文以Banner（横版海报）为例，介绍我们在海报设计与AI技术结合方面所进行的一些探索和研究。

分析

什么是Banner的设计过程？我们尝试总结了对Banner设计的理解，Banner的设计过程是一系列的具备某种特征属性的素材图层的有序叠加过程。这里的特征属性既包括颜色、形状、纹理、主题等视觉属性，也包括位置、大小、贴边等空间属性。在这个过程中，哪些环节可以被机器算法所探索呢？阿里巴巴的“鹿班”系统在去年双十一当天，生成1.7亿张Banner，京东内部也在孵化玲珑和莎士比亚系统，更加智能地设计文案和Banner。

封面配色&布局设计

在设计领域的一些子问题上，可以用算法来挖掘出数据背后的规律（如图1所示）。那么，能否构建一个完整的学习算法和处理系统，统一解决Banner设计中所有的子问题（配色、布局、搭配、生成）呢？

技术方案

素材图层是Banner的基础元素，其本身可以被特征化，同时组成Banner的若干元素间的叠加顺序可以被序列化，因此，算法实际是在学习“在什么时候，选择某种素材，放在哪里”。

如图2所示，为了解决这个问题，我们设计规划器、优化器、生成器来共同构建海报设计的学习与生产过程。其中：

规划器从数据中学习设计师对不同风格下的设计习惯与规律；
优化器基于美学质量和设计原则，对前者的输出结果做精细化调整；
最后，由生成器选取/生成素材并渲染成图；
素材库作为这三个环节的基础，负责素材管理和素材标签化。

素材库

如何提取素材图片的特征属性，这是比较典型的分类问题。在计算机视觉领域，传统方案是提取图像的颜色、梯度等低级语义特征[3]，结合传统的分类器（LR、SVM等）来实现分类。近年来，基于深度学习的方法因为能表达更为复杂的语义特征，逐渐成为主流方法[4]。如图3所示我们提取传统的低级语义特征，以及基于CNN的高级语义特征，来共同完成素材特征属性提取。

规划器

完成素材的数据化工作后，怎样学习Banner的设计过程？

作为一种生成模型，对抗生成网络（GAN）[5]在近年广为应用，其优势是可以端到端地训练图像生成模型，但在我们的应用场景下，GAN存在以下两个问题：

GAN的过程更像是“黑盒”的过程：输入方面，虽然Conditional-GAN之类的方法可以实现某种程度有条件地可控生成，但对于Banner设计任务来说，其输入信息（文案、目标风格、主体信息）仍然过于复杂；
输出方面，GAN直接生成源数据（即图像），但非常缺乏解释性。我们需要的是更加直观、更有解释性的信息，比如素材的类型、颜色、轮廓、位置等。

在上文中有提到，Banner设计过程是素材图层依次叠加的过程。因此，我们可以用序列生成模型来拟合这个过程[6]。在建模过程中，我们把素材视作词汇（Word），海报视作句子（Sentence），词汇索引视为离散化的特征索引，素材叠加顺序就可以视为句子中的词顺序[7]。

图4是我们使用的序列生成模型，输入主体信息和目标风格，输出素材特征的序列。为了增强预测过程中多条路径结果的多样性，我们在监督性地训练每个时刻的输出之外，还引入了评估整个序列合理性的Object loss。如图5所示，借鉴SeqGAN的思想，Object loss可以由判别器来提供[8]。

优化器

规划器预测素材的量化特征，为了确保最终成图符合美学标准，需要一个后处理的过程（图6）。我们用优化器来解决这个问题。从本质上讲，这是一个优化过程。通过和设计师们的沟通，我们设计了一些基于常规设计理念和美学标准的目标函数，动作集合包括移动、缩放、亮度调整等，结合优化方法，提升Banner的视觉效果。

生成器

优化后的素材特征序列，通过生成器来渲染成图。如图7所示，对于素材库检索不到符合某种特征属性的素材的情况，我们设计了图像风格迁移的方法来实现图像特征迁移。这里的特征可以是颜色、形状、纹理等低级特征，也可以是某种语义化的视觉风格特征，对后者来说，可以将源图像的内容Content和目标图像的风格Style在某种特征空间（CNN中的某一层）里做融合，实现风格迁移[9,10]。

应用场景及功能拓展

“千人千面”的精准营销是未来营销策略的趋势，这对商品素材的丰富性提出了非常高的要求；从为商家赋能的角度来说，也需要为商家提供更多样的海报版式，这也要求系统具备海报风格的快速学习能力和拓展能力。对此，在常规设计风格的研究之外，我们从以下3个方面做了一些拓展研究。

主体图片加工

商品素材的丰富度与美学质量是精细化营销及海报美学质量非常重要的一环。其中最核心的要求是图像分割的能力[11,12]。以全卷积网络（FCN）为基础，如图8所示，我们采取以下几个在目标分割领域常见的技巧，来实现商品图片的目标分割：

Encoder-Decoder结构
空洞卷积
多尺度特征融合
Two-Stage微调网络

这种基于语义分割方法的结果，在专业设计师人工评审质量的过程中，发现主体边缘有时会出现明显的锯齿感。经过分析，我们认为有以下两个原因：

语义分割模型把问题建模为一个“像素级分类过程”，每一个像素的类别都天然地被假设为“非此即彼”，大多数的Segmentation模型都采用Cross-Entropy作为损失函数；
因此，无论是从模型结构（CNN）还是从损失函数的角度来说，分割模型会更倾向于全局信息从而丢弃局部结构信息，导致只能得到边缘比较粗糙的分割结果。

为此，如图8所示，我们在图像分割的输出结果之外，结合了Image Matting方法：

对分割模型的输出结果做形态学变换，生成三值Trimap，分别表示前景区、背景区、未知区；
应用常规的Matting方法，比如Bayesian、Close-Form等，以原图像和Trimap图像为输入，输出前景图的Alpha通道；
Matting可以使前景主体的边缘更加平滑，视觉质量更高（图9）。

另外，基于图像美学质量评分模型，我们会优先选择质量分高的图片作为主体素材来源。对中低分的图片，未来可以考虑借鉴Cycle-GAN[13]的思想，设计基于半监督和GAN的图像增强网络，美化后再经过图像分割产生主体素材。

海报模板拓展

上述的常规设计风格的学习属于一种广义的设计风格，需要设计师先期投入很多精力做风格划分以及数据收集、处理。为了快速适配热点场景，我们借鉴图像检索技术（如图10所示），提取素材图片的CNN特征及颜色特征，使用欧式距离来度量素材相似度，这能节省人工打标签的成本，实现基于固定模板的自动拓展及生成（海报临摹）。

多分辨率拓展

在日常工作中，设计师在设计出Banner后，往往要花费很长时间对不同展位、不同版本、不同机型做多尺寸适配（如图11所示）。能否用算法来协助人工提效？在素材已经确定，并且相互的位置关系近乎确定的条件下做多分辨率适配，这本质上是一个优化问题，我们在上文布局优化器的基础上，增加元素的局部相对位置与全局绝对位置的拓扑关系作为目标函数。目前，系统支持在某个固定宽高比±30%范围内的任意分辨率适配，未来会进一步扩大适配范围。

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇当设计大佬遇上Ai:原来不管什么领域都有专业的碾压!

热门课程推荐

热门资讯

1. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
2. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
3. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程

人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
5. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
6. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
9. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
10. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...