不用L约束又不会梯度消失的GAN,了解一下?

  • 时间:
  • 浏览:1
  • 来源:uu快3app赚钱_uu快3大小计划注册

1. 亲戚有人有人 通过 max 定义另另好几条 数学式子,因此须要从数学角度直接证明这是另另好几条 散度,而无需关心它叫那些名字;

对抗网络

因为 D[p,q] 是关于 p,q 的标量函数,因此满足:

下面亲戚有人有人 来举例说明你是什么 思路。

 ●  找出它的对偶形式; ●  转化为极小-极大游戏(min-max game)。

问題是:真正对训练过程有用的是第二、第三步,第一步并删剪都是如此了必要。

首先亲戚有人有人 来给出散度的定义:

现在的结论是:SGAN 因为 有梯度消失的风险,WGAN 虽然很好,但须要额外的 L 约束。如此了很自然就会问:有如此了不须要 L 约束,又无需梯度消失的 GAN?鱼与熊掌须要兼得?

亲戚有人有人 知道 SGAN 因为 有梯度消失的风险,这是为那些呢?亲戚有人有人 考察另另好几条 极端情形:

不同GAN的FID定量曲线

代码开源:

一般的f散度

新散度,新GAN

https://github.com/bojone/gan-qp

限于算力,加之我删剪都是专门研究 GAN 的,过多实验方面因为 做得过高 完善,基本能论证结论即可,请亲戚有人有人 体谅,当然也欢迎各位的指导。

其中 α≠β。那我一来,另另好几条 分布分别可是我单点分布,删剪如此了交集。你是什么 情形下代入 (1),结果可是我:

性能分析

2. 证明 p(x)=q(x) 时,W[p(x),q(x)]=0,也可是我 W[p(x),p(x)]=0,这几乎是显然成立的了;

现在亲戚有人有人 转向一类新的散度:Wasserstein 距离。注意 Wasserstein 距离是另另好几条 严格的、满足公理化定义的距离,不过亲戚有人有人 这里只关心它的散度性质。定义:

基本定义

幸好,最后把这条路走通了,还得到了其他新结果,遂提交到 Github 中,供各位参考,希望得到各位前辈高手的指点。事实上,基于相似的思路,亲戚有人有人 须要构造过多相似的散度,比如将平方上加 4 次、6 次方等,只不过理论分析起来就会困难其他了。

2. 通过 min 最小化你是什么 散度,组合起来可是我另另好几条 min-max 的过程,就得到了某种 GAN;

虽然因为 读者真的明白了式 (1) 的含义,证明就不困难了。式 (1) 先定义了另另好几条 期望的式子,因此对 T 取最大(用更准确的说法是求“上确界”),取最大的结果才是散度。再强调一遍,“取最大已经 的结果才是散度”,你是什么 式子并删剪都是散度。

参数裁剪基本因为 被弃用了。梯度惩罚原则上可是我另另好几条 经验方式 ,有它的不合理之处,因此要算梯度通常迅速。谱归一化看起来最优雅,目前效果也挺好,不过删剪都是限制的太死的因为 性。进一步讨论请看WGAN-div:另另好几条 默默无闻的WGAN填坑者。

具体的证明过程略微冗长,就不删剪摆出来了,请读者自行去看原文的附录。因为 看下面的 WGAN 的每段,因为 WGAN 的每段相对简单。

而 d(x,y) 是任意某种现成的距离。

这篇文章源于我对概率散度的思考,企图得到某种更直接的理解概率散度的方案,其中还受启发于 WGAN-div

这可是我 WGAN,相应的参考资料有互怼的艺术:从零直达WGAN-GP、WGAN-div:另另好几条 默默无闻的WGAN填坑者。

事实上,从原空间要定义另另好几条 新的散度没能,定义了已经 可是我一定容易转化为对偶形式。然而,亲戚有人有人 须要直接在对偶空间分析,由此须要发现一批新的、结构良好的散度。换言之,亲戚有人有人 虽然须要直接在对偶空间中论述另另好几条 式子否是是满足散度的定义,从而直接给出可优化的目标,而不须要关心它具体是 JS 散度还是 W 距离了。

基本定义

WGAN

2. 推导出了另另好几条 称为 GAN-QP 的 GAN 框架,你是什么 GAN 不须要像 WGAN 那样的 L 约束,又无需有 SGAN 的梯度消失问題,实验表明它共要有不逊色于、甚至优于 WGAN 的表现。

注意 D[p(x),q(x)] 是通过 maxT 操作实现的,过多组合起来可是我另另好几条 min-max 的过程,比如前面的例子,等价地可是我:

上述关于 SGAN 的论述过程,须要平行地推广到所有的 f-GAN 中(参考《f-GAN简介:GAN模型的生产车间》[1]),各种 f 散度虽然如此了本质上的差异,它们有同样的固有毛病(要不就梯度消失,要不就梯度爆炸)。

平方势散度

实验结果

GAN-QP效果图

注意亲戚有人有人 对 T 如此了任何约束,过多为了取最大,亲戚有人有人 须要让 T(α)→+∞,T(β)→−∞,从而得到上确界是另另好几条 常数 log2。即你是什么 情形下 D[p(x),q(x)]=log2。

性能分析

原文发布时间为:2018-11-21

对抗网络

3. 证明 p(x)≠q(x) 时(严格来讲是它们不等的测度大于 0),W[p(x),q(x)]>0。你是什么 相对难其他,但虽然也很简单,只须要令 T0(x)=sign(p(x)−q(x)),如此了显然有:

在 128 x 128 分辨率上,亲戚有人有人 进行了较为全面的比较,定量指标是 FID。结果如下图:

这可是我 SGAN。

论文的实验最大做到了 512 x 512 的人脸生成(CelebA HQ),充分表明了模型的有效性(效果不算完美,因此模型很重简单)。有兴趣的亲戚有人有人 ,欢迎继续阅读下去。

先摆结论:

256 与 512

结果删剪都是常数,过多即使在你是什么 极端情形下亲戚有人有人 须要也拉近另另好几条 分布的距离。过多从你是什么 点看,WGAN 要比 SGAN 要好。

须要直接证明它是另另好几条 散度。你是什么 证明还算经典,过多将它写在这里:

倘若有了散度已经 ,亲戚有人有人 就须要通过缩小另另好几条 概率分布的散度,来训练生成模型了。也可是我说接下来要做的事情应该是:

对抗网络

那我亲戚有人有人 就直接地证明了 W[p(x),q(x)] 是满足散度的定义的。

还真的须要,下面带你找另另好几条 。不对,虽然不止另另好几条 ,带你找一批都行。

解的分析

亲戚有人有人 现在要构建另另好几条 GAN 框架,一般含高另另好几条 步骤:

通过变分法须要证明(还是在附录),判别器的最优解是:

注意亲戚有人有人 有 L 约束 ‖T‖L≤1,这因为 |T(α)−T(β)|≤d(α,β),等号须要取到,过多:

这可是我说,对于另另好几条 几乎如此了交集的分布,式 (1) 定义的散度给出的度量结果是常数 log2,常数就因为 梯度是 0,无法优化。而 WGAN 的那两篇文章则表明,“如此了交集”理论上在 GAN 中是很常见的,过多这是 SGAN 的固有毛病。

1. 不管是那些 p(x),q(x),倘若让 T(x)≡0,亲戚有人有人 就得到,因为 散度的定义是要遍历所有的 T 取最大的,过多它共要无需小于 0,这就证明了第其他非负性;

 ●  D[p,q]=0⇔p=q。

如此了称 D[p,q] 为 p,q 的另另好几条 散度,散度与“距离”的主要差别是散度无需满足三角不等式,可是我用满足对称性。因此散度因为 保留了度量差距的最基本的性质,过多亲戚有人有人 须要用它来度量 p,q 之间的差异程度。

这不就跟 WGAN 差过多了嘛,哪怕对于极端分布,可是我会有梯度消失的风险。鱼与熊掌真的须要兼得。

512 x 512人脸效果图

1. 论文提供了某种分析和构造概率散度的直接思路,从而简化了构建新 GAN 框架的过程;

基本定义

有了散度就须要构建对抗网络,亲戚有人有人 最终给出的形式为:

亲戚有人有人 先来看 SGAN 中的判别器 loss,定义:

同样地,用 p(x)=δ(x−α),q(x)=δ(x−β) 去测试 W[p(x),q(x)] 散度的性能,亲戚有人有人 得到:

由你是什么 最优解,亲戚有人有人 须要得到两点结论。首先,没能证明最优解满足:

3. 为了检查你是什么 散度在极端情形下的表现,亲戚有人有人 须要用 p(x)=δ(x−α),q(x)=δ(x−β) 去测试它。

其次,将最优解代入生成器的 loss,如此了得到判别器的目标是:

用 p(x)=δ(x−α),q(x)=δ(x−β) 去测试你是什么 散度,结果是:

本文作者:苏剑林

其中 λ>0 是另另好几条 超参数,d 须可是我任意距离。

注意无需说把二次项你是什么 项加入到生成器的 loss 中(理论上不成问題,因此用梯度下降优化删剪都是有问題。),因为 你是什么 项的分母是 d(xr,xf),一旦最小化二次项,等价于最小化 d(xr,xf),也可是我用 d(xr,xf) 来度量图片的差距,这是不科学的。

性能分析

在 128 分辨率上,最好的表现是 GAN-QP 和 SGAN-SN,不过在 256 x 256 分辨率上,它们的表现就拉开了差距:

散度

上方的几条小节因为 删剪了呈现了你是什么 理解的流程:

L约束

以及下表:

SGAN

你是什么 形式好像就在 WGAN 的基础上加了另另好几条 平方形式的势能,过多称为平方势散度(QP-div,quadratic potential divergence)。

论文的附录因为 证明了式 (12) 虽然是另另好几条 散度。

过多亲戚有人有人 发现,GAN 的过程虽然就两步:1)通过 max 定义另另好几条 散度;2)通过 min 缩小另另好几条 分布的散度。这里的新观点,可是我将 max 直接作为散度的定义的一每段。

WGAN 的遗留问題可是我如可往判别器加入 L 约束,目前有某种方案:参数裁剪、梯度惩罚、谱归一化,请参考角度学习中的Lipschitz约束:泛化和益成模型和WGAN-div:另另好几条 默默无闻的WGAN填坑者。

同样地,有了新散度,就须要定义新 GAN 了:

我最大把 GAN-QP 的实验做到了 512 x 512 的人脸生成,效果还是不错的,最终的 FID 是 26.44:

128 x 128

下面要给出的散度,形式是那我的:



这虽然可是我 JS 散度的对偶形式。因此亲戚有人有人 须要直接基于你是什么 定义来证明它是另另好几条 散度,因此讨论你是什么 散度某种的性质,而根本不须要知道它是 JS 散度。

我在论文中称之为 GAN-QP。

这里:

GAN-QP

为甚证明?只须要证明你是什么 结果满足刚才说的散度的两点要求。注意,按照亲戚有人有人 的逻辑,亲戚有人有人 我如此了乎 它是 JS 散度,但亲戚有人有人 须要从数学角度证明它是另另好几条 散度。

也可是我说最优解自动满足 L 约束。过多亲戚有人有人 须要认为 GAN-QP 是某种自适应 L 约束的方案。

设 z=T(α,β)−T(β,α) 就得到,蒸不烂 悉有如此了?这可是我个二次函数的最大值问題呀,最大值是呀,过多亲戚有人有人 删剪都是:

论文在 CelebA HQ 数据集上,比较了多种 GAN 与 GAN-QP 的效果,表明 GAN-QP 能媲美甚至超越当前最优的模型。

论文综述

这也是另另好几条 概率散度,因此亲戚有人有人 也从理论上证明了它无需梯度消失/爆炸(跟柯西不等式有关)。此外,须要看多 λ 可是我另另好几条 缩放因子,事实上无需说重要,从而你是什么 GAN-QP 对 λ 是鲁棒的,λ 无需明显影响模型的效果。

直面对偶空间

注意,模型 (15) 中,T 是 (xr,xf) 的二元函数,但实验表明,取最简单的一元特例 T(xr,xf)≡T(xr) 即可,即 T(xr,xf)−T(xf,xr) 用 T(xr)−T(xf) 就够了,改成二元函数并如此了明显提升(但也因为 是我没调好)。那我励志的话 ,形式上就跟 WGAN-GP 非常相似了,但理论更完备。