利用归一化信息提取图像特征中结构性信息

资讯 4年前

619

作者是来自将门机器学习社群，康奈尔大学的Cornell SE（3） and Machine Learning Group，这次要介绍的是他们发表在NeurIPS 2019的工作——位置归一化。这项工作主要集中于发现对位置归一化提取信息的含义及如何在生成网络中高效利用这层信息

作者是来自将门机器学习社群，康奈尔大学的Cornell SE（3） and Machine Learning Group，这次要介绍的是他们发表在NeurIPS 2019的工作——位置归一化。

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法

这项工作主要集中于发现对位置归一化提取信息的含义及如何在生成网络中高效利用这层信息。以往的研究大多都是认为对特征进行归一化之后可以加速网络训练和提高网络准确率，却忽视了其实被normalize的信息含有特征中重要的统计值，如果有效应用，可以对生成网络乃至分类网络产生关键性有利的影响。目前已被应用于生成网络（GAN，图像去雾等），语义分割，图像分类等应用当中。

随着生成模型在计算机视觉中的普遍应用，在图像风格迁移等方面都有了突破性的进展。然而现有的技术仍然不能有效学习生成物体的结构信息。因此在数据不足的情况下，生成模型很可能出现训练失败的情况。在这篇文章中，研究人员基于对图像中间特征的深入研究，提出有效利用归一化信息从而提取图像特征中的结构性信息，其本质上是要求从已有特征中提取有效信息再传递到神经网络后层，以减少网络训练中的结构信息丢失。

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法

PositionalNormalization （PONO）

研究人员定义从另外一个维度对中间特征每个位置进行归一化，称之为Positional Normalization （PONO），实验发现PONO可以有效的提取特征里的结构信息。从图中我们可以看到由PONO提取出来的平均值mean（康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法）和标准差std（）可以有效的表征特征中的结构信息。研究人员认为，这两个重要的moment信息将在包括GAN 在内的生成网络中起着重要的作用。

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法

Moment Shortcut （MS）

Moment Shortcut （MS）作为和residual connection 和 concatenation 并行的一种重新利用信息的方式，与这两个不同的是，Moment Shortcut不要求将所有信息返回到下一层，而是将部分信息返回于下一层。

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法

上述图展示了如何在网络中使用Moment Shortcut。

该图显示了如何在生成网络中结合PONO将前层网络的结构信息康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法和提取出来作为新特征的参数和

放入后层，以有效缓解生成网络的结构信息丢失的问题。具体放回类似于denormalize的操作，见以下公式：

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法

文中把这种算法简称为PONO－MS。与residual connection相似，PONO－MS不会造成额外的参数学习，计算量也十分小。PONO－MS直接将康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法和。作为和，传输到后层网络，考虑到各种task的不同，文中也提出了优化的版本PONO－DMS。在得到和之前，将和输入一层ConvNet中进行自适应学习，以得到更符合相应task的参数。

与各类归一化方法之间的比较

归一化（Normalization）算法的概念主要是将特征看作一个分布，将其中的平均值及标准差（σ）去除，根据使用不同的维度，则有不同的意义。BatchNorm是将某单一特征在整个batch中做挑整，进而增加网络学习的效率；LayerNorm是针对整层的特征一起调整，不再考虑batch中其他example的特征，特别能强化RNN与Transformer这类在NLP方面的模型；GroupNorm则是针对batch size很小、BatchNorm无法稳定地发挥作用时，提出了解决的方案。根据研究人员的说明，InstanceNorm以往用于分离图像中的风格，而这次提出的PONO则是着重在提取结构信息。人们在使用归一化经常还会再进行反归一化（Denormalization）的操作，文中的Moment Shortcut（MS）则属此类。这操作最早是在BatchNorm的文章中被提出，作者增加了两个新参数β和γ用来学习新的平均值与标准差。后来的Conditional InstanceNorm则是给予网络n组β和γ来学习n种图像风格。AdaIN则提出直接交换将一张图片的平均值与σ当作另一张图片的β和γ，来达成风格替换。这直接将平均值与σ当作β和γ的方式与MS相似，其中的差别在于前者用于替换风格，后者则用于直接保留结构信息。作者在实验中发现两种方法可以相辅相成。之后的Dyanmic LayerNorm则是使用另一个网络来生成β和γ，同样的方法也使用于后来MUNIT与StyleGAN中的新版AdaIN以及SPADE。此方法在文中的Dynamic Moment Shortcut（DMS）也同样被使用。

实验结果

文章主要集中在对于Image Translation相关工作的探索。结果显示，加入PONO－MS能够有效提高GAN一类网络的生成性能。

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法

同时，PONO－MS也能有效使一些failure的case起死回生。以目前非常火的image translation的一个GAN应用为例：我们分别提取猫和狗的结构信息和类别信息，旨在于生成有着猫的结构的狗和有着狗的结构的猫（如图所示）。当我们用小数量级dataset来训练网络的时候我们可以看到网络无法学习到我们需要的信息，造成训练失败。而令人惊讶的是，当加入PONO－MS之后，网络可以成功学习到对应信息，使一个失败的例子能够起死回生。

康奈尔大学研究员提出利用归一化信息, 提取图像特征中结构性信息的新方法