虚构的对抗，GAN with the wind-弧论坛

Arcman 发表于 2018-1-14 22:02

虚构的对抗，GAN with the wind

虚构的对抗，GAN with the wind

2018-01-15
哆嗒数学网本文转自微信公众号老顾谈几何

通过理论验证，我们发现关于对抗生成模型的一些基本观念有待商榷：理论上，Wasserstein GAN中生成器和识别器的竞争是没有必要的，生成器网络和识别器网络的交替训练是徒劳的，此消彼长的对抗是虚构的。
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7ApuJWMoOOQpevRUJd0xOPEUNvAtNF7mXtvaNfsVV6oQ5gl3MyUmqGg/640?wx_fmt=png在过去的两三年中，对抗生成网络（Generative Adersarial Network GAN）获得了爆炸式的增长，其应用范围几乎涵盖了图像处理和机器视觉的绝大多数领域。其精妙独到的构思，令人拍案叫绝；其绚烂逼真的效果，令众生颠倒。一时间对抗生成网络引发了澎湃汹涌的技术风潮，纳什均衡的概念风靡了整个人工智能领域。

Goodfellow 【1】于2014年提出了GAN的概念，他的解释如下：GAN的核心思想是构造两个深度神经网络：判别器D和生成器G，用户为GAN提供一些真实货币作为训练样本，生成器G生成假币来欺骗判别器D，判别器D判断一张货币是否来自真实样本还是G生成的伪币；判别器和生成器交替训练，能力在博弈中同步提高，最后达到平衡点的时候判别器无法区分样本的真伪，生成器的伪造功能炉火纯青，生成的货币几可乱真。这种阴阳互补，相克相生的设计理念为GAN的学说增添了魅力。
GAN模型的优点来自于自主生成数据。机器学习的关键在于海量的数据样本，GAN自身可以生成不尽的样本，从而极大地减少了对于训练数据的需求，因此极其适合无监督学习；GAN的另外一个优点是对于所学习的概率分布要求非常宽泛，这一概率分布由训练数据的测度分布来表达，不需要有显式的数学表示。
GAN虽然在工程实践中取得巨大的成功，但是缺乏严格的理论基础。大量的几何假设，都是仰仗似是而非的观念；其运作的内在机理，也是依据肤浅唯像的经验解释。丘成桐先生率领团队在学习算法的基础理论方面进行着不懈的探索。我们用最优传输（Optimal mass Transportation）理论框架来阐释对抗生成模型，同时用凸几何（Convex Geometry）的基础理论来为最优传输理论建立几何图景。通过理论验证，我们发现关于对抗生成模型的一些基本观念有待商榷：理论上，Wasserstein GAN中生成器和识别器的竞争是没有必要的，生成器网络和识别器网络的交替训练是徒劳的，此消彼长的对抗是虚构的。最优的识别器训练出来之后，生成器可以由简单的数学公式所直接得到。详细的数学推导和实验结果可以在【7】中找到。
下面，我们就这一观察展开详细论述。我们首先分析WGAN的理论框架；然后简介最优传输理论，解释生成器和判别器的主要任务；我们再介绍凸几何中的基本定理，解释凸几何和最优传输的内在联系，用计算几何的语言来解释最优传输框架下的基本概念；初步试验结果比较了WGAN和几何方法；最后我们进行一些扼要的讨论。

规模宏大的随机数生成器大家对于随机数的生成原理耳熟能详，GAN本质上可以被视作是一个规模宏大的随机数生成器。我们考察最为简单的线性同余生成算法
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h71iaZGrs6EPsoFf4S7zyQia58MG5J5rmp8t9Jx0tpfrJk9fE28dkHJ3wg/640?wx_fmt=png，
这里http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7hr4ztuat1p6EzHk7UqxgqRAxz0icZU5Ax18o66a0Y8qFIMXiapibH6tFA/640?wx_fmt=png是比较大的整数，那么http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7kwX1uNtiaqDnHmIllfZrbxtJTwTdfXym7DG73wkia2NQVKG9pSAAdyvw/640?wx_fmt=png构成了单位区间上的均匀分布（uniform distributed）伪随机数。我们再来生成单位圆盘上的高斯分布的随机采样点：首先生成http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7rBTz6jVcv8kQOrHNp1rNd5f7XXAtsDxhNmLICho1AMA7QWay3GICzg/640?wx_fmt=png，然后定义映射
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h79rqESIN2ynVuzv4UbV9llhMibHlicnMQPVnHs55e05sCGaWIW7yOIJ2g/640?wx_fmt=png。
由此可见，我们可以通过一个变换将均匀分布变换成高斯分布。如果我们将概率分布看成是某种质量密度，映射会带来面积的变化，因此带来密度的变化，这样就从一种概率分布变换成另外一种概率分布。
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gel9tsvL8ZQK7vSy03p6CicRwfW5E67AemugaSicxzKq3BPXsI6oWQyvxxr4PhFzutZ196wZW8elN2Uw/640?wx_fmt=png图2. GAN本质上是将一种概率分布（高斯分布）变成另外一种概率分布（人脸图像）。

在图像生成应用中，GAN模型本质上就是将一种固定的概率分布，例如均匀分布或者高斯分布，变换成训练数据所蕴含的概率分布，例如人脸图像的分布。GAN的理想数学模型如下：我们将所有http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vn2vD1bR55JjLzoRsGjI485eycV7WwibpvPceCGsmiafkUnBWzYKADpA/640?wx_fmt=png图像构成一个空间，记为图像空间http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7ukzUwkoPaeSvY112LVB6rw3WP5ERIgz53WcUSYLn6sSSICdfv3Ks8g/640?wx_fmt=png，每一张图像看成是空间中的一个点，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7wwm2N4nibL5KaNMwJZYYicybcxlUAQicGRW5FicSf8MsqI4GcHAYcglsGQ/640?wx_fmt=png。我们用http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7bnZf6ZayJk3EWaHasbB2h3J3hJZCQK18BdUCqLUDhRm2ztybibOELibA/640?wx_fmt=png来表示图片http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h78hWHgLgbtdhhDuZCKaD896vicaVPVMyn2mvTlSjKvPrnBd8QnmwTamw/640?wx_fmt=png是否表达一张人脸的概率，那么http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vGM6RlKhbPpJQO2iapKBElibDn5btp85jiabYPbicPmSApd6hrAq6YIbZQ/640?wx_fmt=png就是GAN要学习的目标概率测度。在工程实践中，我们只有一些人脸图像的样本http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7LeUH1q3BicDa2toFSIN5FSVv5IeL7qj0Y2mr03dxVj90pE8nHMtgLmA/640?wx_fmt=png，这些样本构成了经验分布作为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vGM6RlKhbPpJQO2iapKBElibDn5btp85jiabYPbicPmSApd6hrAq6YIbZQ/640?wx_fmt=png的近似。经验分布的公式表达为：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iblDD4peA5RVdWJal8fXZTVevjWYOR6zkbiatzHM2Eoyk0o5RROZHw4g/640?wx_fmt=png。绝大多数图片并不是人脸图像，因此http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vGM6RlKhbPpJQO2iapKBElibDn5btp85jiabYPbicPmSApd6hrAq6YIbZQ/640?wx_fmt=png的支撑集合
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7d7pknh2ib4BXR4dlttmHIY1VBlTAqMIwUEkHkyRes0Lib5jVP1ufZ7vQ/640?wx_fmt=png
是图像空间中的一个子流形，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png的维数远远小于图像空间http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7ukzUwkoPaeSvY112LVB6rw3WP5ERIgz53WcUSYLn6sSSICdfv3Ks8g/640?wx_fmt=png的维数。支撑集流形http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png的参数空间等价于特征空间，或者隐空间（latent space）http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7bYhmXkGYEGOCwGlxUhG0Ryq4DNxt66bDfW8ia6zclNanqa7dxFoeXuQ/640?wx_fmt=png。编码映射（encoding map）就是将http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png映到特征空间，解码映射（decoding map）就是将特征空间映到支撑集流形http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png。
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gel9tsvL8ZQK7vSy03p6CicRwHXwIv12OW3nJXPPSY3dHMsFgic8HeyBb07fQfsLzT7xQWdkhB7cEKdw/640?wx_fmt=png图3. WGAN【3】的理论框架。

假设在隐空间有一个固定的概率分布http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7C0RfkJ85ic2ZjNuKuyTf4zPZt7HftfXyOHCXd8YojwMoviaHJLsHRGRQ/640?wx_fmt=png，例如高斯分布或者均匀分布。我们用一个深度神经网络http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7jgiaUyACrIw2sMiaMJF8OceSXoZ5ib2Ps90gcmhh3y4NDWwdLXxdOd1Mw/640?wx_fmt=png来逼近解码映射http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7g3f8XWQwzyrNkeV556DlTLrUnib0icfGWlDBZvSW2bOaDSrlnZjINwHA/640?wx_fmt=png，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Z5wnVPMFxyap41HiamBNoFqZ14UX52muFeKg6hjWXwtx9WKhu555ibrg/640?wx_fmt=png将http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7xc4gPjYDgF2SBo23H51KiapjDkdFIicca85nl7JOATQuyGN1qj5Y3cOQ/640?wx_fmt=png映成了图像空间中的概率分布
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7rkmllZqiaKvUvDhhszAUBoAJgr0c0ZIwq35jZrUBJ9P3WGmcWoC01ibg/640?wx_fmt=png,
我们称http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7mic21iaEiaZOVzk1kiaFaAiawticvvgtBXNOphzy32gN8xEJ06SJiaA7pwjNw/640?wx_fmt=png为生成分布。判别器的核心任务是计算训练数据分布http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vGM6RlKhbPpJQO2iapKBElibDn5btp85jiabYPbicPmSApd6hrAq6YIbZQ/640?wx_fmt=png和生成分布http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7mic21iaEiaZOVzk1kiaFaAiawticvvgtBXNOphzy32gN8xEJ06SJiaA7pwjNw/640?wx_fmt=png之间的距离；生成器的目的在于调节http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Z5wnVPMFxyap41HiamBNoFqZ14UX52muFeKg6hjWXwtx9WKhu555ibrg/640?wx_fmt=png使得生成分布http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7mic21iaEiaZOVzk1kiaFaAiawticvvgtBXNOphzy32gN8xEJ06SJiaA7pwjNw/640?wx_fmt=png尽量接近数据分布http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vGM6RlKhbPpJQO2iapKBElibDn5btp85jiabYPbicPmSApd6hrAq6YIbZQ/640?wx_fmt=png。那么，如何计算分布间的距离呢？如何最优化映射呢？这需要用到最优传输理论。

最优传输理论梗概给定带有概率测度的空间http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Hl1cHXnrnUgu5aZ60gCib8kQ4zoe53IcKhj2F0ejStlibLGbwU2S3aOQ/640?wx_fmt=png和http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h78uicy4XggqMvqF866VJFh1MR9l0pOSS7jxaaOKEiasPSUQz4iaH7iapNZg/640?wx_fmt=png，具有相同的总质量，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7cDXP0C1JAa9PEQFoG2SIOSTVW1PRKfJdmrBNeTmFnGKNX2noReomcw/640?wx_fmt=png。一个映射http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7bLFqugPmqGaeqdEOhacKKADwgCLuLMjicLCvz5SXxbCHnn1AWribOuGA/640?wx_fmt=png被称为是保持测度，如果对于一切可测集合http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7qo5EdSAyAaf2qLGL834PS1hOAVibCjcEHRNm0noJB4woTTzw8S84PHA/640?wx_fmt=png，我们都有
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Ys1xSenZ8m2sFT5Osibp5X801ibPa4tAqqQyXjChDTfvtMypTYor1B4A/640?wx_fmt=png,
记为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7wwuicbnSEgkHDucIOO40CicUhMga48LzQsoLnOmnle70U7aicwRxpvL6A/640?wx_fmt=png。给定距离函数http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7etVpAzMuib2W2MoX9J8hIianJ7OPPIwat0vBibzuwW835hpdOgKbwTcvw/640?wx_fmt=png，代表两点间的某种距离，传输映射的传输代价函数为：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7qxcFK2c1vYUYApK7aRM5GItKCTvjTjXCrVXtCluOuplyd0eBvicbMSw/640?wx_fmt=png。
蒙日问题法国数学家蒙日于18世纪提出了最优传输映射问题：如何找到保测度的映射，使得传输代价最小，

http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7AZpTRXa6EfPt3lRhFrGPm0sNXEzpa24ibL0l4nE0FBzc7SNXOFzIAVA/640?wx_fmt=png
这种映射被称为是最优传输映射（Optimal Mass Transportation Map）。最优传输映射对应的传输代价被称为是概率测度之间的Wasserstein距离：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7ozs2QHWDSs1gc46y7AxxT0apVH4I20jiczicFAOM3mFGXO1hu98vPShg/640?wx_fmt=png。
Kantorovich 对偶问题 Kantorovich证明了蒙日问题解的存在性唯一性，并且发明了线性规划（Linear Programming），为此于1975年获得了诺贝尔经济奖。由线性规划的对偶性，Kantorovich给出了Wasserstein距离的对偶方法：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Cjg3kK1VnpicAJ7X71wUogLCV4ibaRqoQ05WZXnMUK0icPyYEiaJjeibTuw/640?wx_fmt=png
等价的，我们将http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7D8iaDYT8LFFZ5pHm1lRogmaZnfXmEZLichG0X5ibbUzpGZyIYEYia7hSmw/640?wx_fmt=png换成http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Gbar5ZpVMMJCzIGwwWvXKI8Lt2KZibeq3OTHX1icjqYJ6OaLZkpLOLGw/640?wx_fmt=png的c-变换，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gemUJgIKmzFoCTKYlCdsbK2cgznhY2yR3I03j4U7iaRY38o2cqDVAwBlP4j9FVIJ5jEd7uSiaiapdnJAQ/640?wx_fmt=png，那么Wasserstein距离为：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7icOmWWhUphs82LID9JOCGAVbzYT7zpUGqLF7WbwkOqcibT5DQzfX4nog/640?wx_fmt=png
这里http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Gbar5ZpVMMJCzIGwwWvXKI8Lt2KZibeq3OTHX1icjqYJ6OaLZkpLOLGw/640?wx_fmt=png被称为是Kantorovich势能。
WGAN模型在WGAN【3】中，判别器计算测度间的Wasserstein距离就是利用上式：这里距离函数为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7m3QswnZTxsJgaLDOWRHeSuYP5odevXfsy934KBRRUA5ibjzmpic7hn3w/640?wx_fmt=png，可以证明如果Kantorovich势能为1-Lipsitz，那么http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7PfSWvnRibg4ch0HjEjVWyk4oibAEPa19LGib4AEP97VO4licczrlOr8YLg/640?wx_fmt=png。这里Kantorovich势能由一个深度神经网络http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7eKP11FMHbdzgicY5RcFqRoCCVz0tibyjc3KYGdlmU4cP6E585aia3lgicA/640?wx_fmt=png来计算，记为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Vp2Uk1fnJ8zE5Qwb7PSFvtianXlTQt6icOyF2y3B4PmibXeRJqibzX6h6w/640?wx_fmt=png。Wasserstein距离为
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7pEJSGRMwg5qpmGPnwowss6DrtpyawRy2UXj6yHSkOUnc3SbywP5otg/640?wx_fmt=png。
生成器极小化Wasserstein距离，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7KjApPIPReeeGibVicVp2G9a8k8WjpPmnIakMsdsstXIhWRpRZqnG9fWA/640?wx_fmt=png。所以整个WGAN进行极小-极大优化：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7FC9ur4lHysqjFPQ90wVs48BD3rfY1gJcQPmicX32jk2RoYeMw2HRy1Q/640?wx_fmt=png。
生成器极大化，判别器极小化，各自由一个深度网络交替完成。在优化过程中，解码映射http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Z5wnVPMFxyap41HiamBNoFqZ14UX52muFeKg6hjWXwtx9WKhu555ibrg/640?wx_fmt=png和Kantorovich势能函数http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Vp2Uk1fnJ8zE5Qwb7PSFvtianXlTQt6icOyF2y3B4PmibXeRJqibzX6h6w/640?wx_fmt=png彼此独立。
Brenier方法 Brenier理论【4】表明，如果距离函数为 http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7CIUKezzia5bSgNcyP4o5CAjjRicPnRxfNWRm9Jee6kxkkvxXI5icoRkCA/640?wx_fmt=png，那么存在凸函数http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7HKSsjMRBBogcH0OJH8vrL2IXTm0F0iaic0ejVQ0ibmeQfQIicveuKZwiaCQ/640?wx_fmt=png，被称为是Brenier势能，最优传输映射由Brenier势能的梯度映射给出，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7A8Weeth7RicpuuuyjQjwsahuia2RoXlTtNnqf7sCddzLOwxButMVUlCA/640?wx_fmt=png。由保测度条件http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7wwuicbnSEgkHDucIOO40CicUhMga48LzQsoLnOmnle70U7aicwRxpvL6A/640?wx_fmt=png，Brenier势能函数满足所谓的蒙日-安培方程：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7JwnUXAXqOYx0gh2PE6ELofRKhIOPYI1IicRLoEg6Fb9JLY7iaEB2yhicA/640?wx_fmt=png。
关键在于，Brenier势能和Kantorovich势能满足简单的关系：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7vPvntuE10iab0eL1DwOVfkKniah9qYiaX4wMC3roPmfd6aVZNicVjjfwmw/640?wx_fmt=png。
判别器计算Kantorovich势能，生成器计算Brenier势能。在实际优化中，判别器优化后，生成器可以直接推导出来，不必再经过优化过程。

凸几何理论梗概最优传输的Brenier理论和凸几何理论中的Alexandrov定理彼此等价，它们都由蒙日-安培方程来刻画。
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7NuW4TcDxLGHpfO9YVPCJSHoLOZ9FuhWaiaGPFE3PC4XMHG7LoIoYxwA/640?wx_fmt=png图4. Minkowski问题和Alexandrov问题。
Minkowski 定理如图4所示，左帧显示了经典的Minkowski定理：给定每个面的法向量和面积http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7CjZ7ic7NmbadQZicDCib8uuecA4PibqY6m5Hb3icscPwA4NGOLibr7OlCfwQ/640?wx_fmt=png，满足条件http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7raez2DzTHxm2dvRhfMXmXB8vJaCibX6UZCfS2icyYDJtjPApLGrob3Gg/640?wx_fmt=png，那么凸多面体http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7KMvZd1b1NwcYfazIGdI6Q9eanaFlmnP5rguyLVo5qaN0rNQkz8FYlA/640?wx_fmt=png存在，并且彼此相差一个平移。这一定理在任意维欧氏空间都成立。
Alexandrov 定理右帧显示了Alexandrov定理【2】：假设http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h75FmibFWSE5sIbYW5anV8mS1Wh9RcdicxEiamdDGWInfSVGJ7YKEFxp7BA/640?wx_fmt=png是平面上的一个凸区域，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7KMvZd1b1NwcYfazIGdI6Q9eanaFlmnP5rguyLVo5qaN0rNQkz8FYlA/640?wx_fmt=png是开放凸多面体，每个面的法向量http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7eVor5Akl8dMI7wdlv2tjxmgzpQpxRDWo8fYTcZEu79BDrJtHO5KpwQ/640?wx_fmt=png给定，每个面在http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h75FmibFWSE5sIbYW5anV8mS1Wh9RcdicxEiamdDGWInfSVGJ7YKEFxp7BA/640?wx_fmt=png上的投影面积http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7yRjHslUuqQJNESwrnicBRxANfiasZ26cOBUe0lUtpf9F3HLfLBwUB7yw/640?wx_fmt=png给定，满足http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7sicxpaicLjniblsMdMpw7P70kV1VGEFtk6VeLL4yXyRqHl3kMALNvhIWg/640?wx_fmt=png，那么凸多面体http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7KMvZd1b1NwcYfazIGdI6Q9eanaFlmnP5rguyLVo5qaN0rNQkz8FYlA/640?wx_fmt=png存在，并且彼此相差一个垂直平移。这一定理在任意维欧氏空间都成立。Alexandrov于1950年代证明了这个定理，他的证明是基于代数拓扑的抽象存在性方法，无法转化成构造性算法。
变分原理我们在【6】中给出了一个基于变分原理的构造性算法。假设第i个面的梯度http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7kXlZW6kTcZ5Y52sV6aTlmGAnHZrgm4Ok1wtEeUibN0xkMALfOmkxJYg/640?wx_fmt=png给定，高度http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h74qEXOicj7FzwmyYsEvAVJoGWmShVXCO9Z0ZDrNL2h5g9YVQ2pBEybXA/640?wx_fmt=png未知，这个面的方程为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Ivmfq59BJYFjdXh1Q4IrMlSNhZib5a2UfUGYBd5AaWqnC8sx11yiaApw/640?wx_fmt=png。这些面的上包络（upper envelope）构成了Alexandrov凸多面体http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7KMvZd1b1NwcYfazIGdI6Q9eanaFlmnP5rguyLVo5qaN0rNQkz8FYlA/640?wx_fmt=png，也是凸分片线性函数
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7kR9wwzwYoNQgicdpibMSFaSqgGfDMJmFZRdCD2kqM5du67ERekn0v82A/640?wx_fmt=png
的图（graph），这里向量http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7YTxHasicMWoicbbyZwLIELDVLaNRlo26M9zozgZk1IiaZ0fYu8YJt43qQ/640?wx_fmt=png代表所有支撑平面的高度。上包络向平面投影，得到http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h75FmibFWSE5sIbYW5anV8mS1Wh9RcdicxEiamdDGWInfSVGJ7YKEFxp7BA/640?wx_fmt=png的一个胞腔分解，
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h70Fo3gZXMqjHyB4EP9syMsBDuiauhHibkrDad3Qg5iaYtYELUOlXQ7TkwQ/640?wx_fmt=png
胞腔http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7DhpM9qxxZaHqKmRN9bW9p5tcnr72dZASnwcCsdCmSMDI7mlQ1vRrgA/640?wx_fmt=png是第i个面在http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h75FmibFWSE5sIbYW5anV8mS1Wh9RcdicxEiamdDGWInfSVGJ7YKEFxp7BA/640?wx_fmt=png上的投影，其面积记为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7hsbYI9N4KmpcP2BG9b3UXfJK21jWkAmEYYHD6swYXsTvTzVfcjbWeQ/640?wx_fmt=png。那么，我们定义Alexandrov势能为：
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gemUJgIKmzFoCTKYlCdsbK2ca3bfN2dSo8aIPk40SmELrATWx1IiclNpaSLhgia351Zvso9B53micOQaA/640?wx_fmt=png.
可以证明Alexandrov势能为凹函数，其极大值点给出的高度http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iclD8XaFvmAJVk4NSsyKKqxGF1vXkzxFgnGot3Rc4vuLpZ0NAEXibIiaQ/640?wx_fmt=png，就是Alexandrov定理中的解。

Alexandrov定理和最优传输
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7MOmWcKbNzHxLstltDB5j4m9SA2uLdgVmppyssHeHUfN4mcI8CyKiccA/640?wx_fmt=png图5. Alexandrov定理和最优传输映射。

凸几何中的Alexandrov定理和最优传输理论中的Brenier定理本质是一致的，如图5所示，带测度的源区域为http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7a7GO7tj54sSsULea447TsbMwunMRkd2QTia1VIqGFbhicUd74m0Mzmmg/640?wx_fmt=png，目标为带狄拉克测度的离散点集
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7icJPxicIhmaCiaSwqBUeY6tEMFibNPZYkVr4hrh6oajmxC4V408TLXPPicg/640?wx_fmt=png,
我们构造一个Alexandrov凸多面体，每个面的投影面积满足 http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7hsZ5hm77FuDqMiayFTpiaM6iaxkwxGE7dhPNElpGKxL7BwIXeK4sscrpQ/640?wx_fmt=png，那么这个凸多面体对应的分片线性凸函数http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7FlsyEDnXmqF24ib2qIkgodkWicPxlLpZUqxXAXjRtWnuqiciaYQJEoYYtQ/640?wx_fmt=png就是Brenier势能函数，梯度映射http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7OJTzVrXgqvbZMljRMOsOsydl5BR27zgcIJDHeYXqF3n3QDrJnibzicng/640?wx_fmt=png
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h75ss8CdfIKXTfoPYvetAXV9XgaQoOzAVtriaWvfeYO3f0I0BWTwMemmQ/640?wx_fmt=png
就是最优传输映射，Alexandrov势能函数就是传输代价，也等价于Wasserstein距离，即http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7JU5ZFbTS6HkoJR2Mliap84NVVO12ou5WzlLwAdkMTI0BRd31dDwbQfw/640?wx_fmt=png。计算几何的语言http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7TqhGutLsrGpXCLZbhicIA0S0uEaHAw6nqL2D5c5AKyd7Y9F83ldmoQA/640?wx_fmt=png图6. Power Diagram。
Brenier定理和Alexandrov定理可以用计算几何中人所周知的Power Diagram语言来描述，这样有利于进一步理解和算法设计。如图6所示，我们为每个目标点http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7kXlZW6kTcZ5Y52sV6aTlmGAnHZrgm4Ok1wtEeUibN0xkMALfOmkxJYg/640?wx_fmt=png配上一个红色的小圆http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h76XpFjH6SribfPOsEuvoBy2h2UdBialeH8zYSnU0hb7TIDX36OeuqTJEg/640?wx_fmt=png，半径的平方被称为是power 权重。那么power距离定义为
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h72D9SO9roUD5uDksQWN3PTOtiahLF2zEESsSbqdbMGsZfDjgk6z04ENQ/640?wx_fmt=png
由此，我们定义Power Diagramhttp://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7edG8kvibr061OgOVsMENiacsVWA9m3mPtBCBVbdJYzF8Cmy3zRT37EzQ/640?wx_fmt=png，这里
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7llagCIpdcRBDAxlg6bLg2Q8Feaw31plCG3I6HbUNIYbvbqMBjUTFug/640?wx_fmt=png
通过调节power 权重，我们可以使得每个胞腔的测度http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7g6dC7CCxlTHf9QMlDTRlrFdeRo9KZfJ84DtsrLsj0xedpIxWbTJmAQ/640?wx_fmt=png等于http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7p4ANNh8hJ32zUHjhWg6OlInd6ibTaotiaDKzkaSV96ha4dZCv3XvhAdA/640?wx_fmt=png。综上所述，我们有如下最优传输的几何解释：

[*]生成器：最优映射等价于Power胞腔分解，将每个胞腔http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7fnpWj8KzzKwGGABf4unVXfrZYcLGmx6DIianXrCkqk9iaiaRJOMaiaCjYw/640?wx_fmt=png映到http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7kXlZW6kTcZ5Y52sV6aTlmGAnHZrgm4Ok1wtEeUibN0xkMALfOmkxJYg/640?wx_fmt=png，
[*]判别器：Wasserstein距离中http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7JU5ZFbTS6HkoJR2Mliap84NVVO12ou5WzlLwAdkMTI0BRd31dDwbQfw/640?wx_fmt=png中的http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7D8iaDYT8LFFZ5pHm1lRogmaZnfXmEZLichG0X5ibbUzpGZyIYEYia7hSmw/640?wx_fmt=png等于power 权重，
[*]判别器：Wasserstein距离Kantorovich势能http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Gbar5ZpVMMJCzIGwwWvXKI8Lt2KZibeq3OTHX1icjqYJ6OaLZkpLOLGw/640?wx_fmt=png等于power距离，http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gemUJgIKmzFoCTKYlCdsbK2czDAKfYDGcPMJvrJougpzicyzswyuIwubH2F62ny8LGcNXicHVib9Xry2A/640?wx_fmt=png

[*]生成器：Brenier势能等于Power Diagram的上包络。

初步实验设计和结果WGAN的主要功能有两个：1. 编码、解码实现从隐空间到图像空间的变换；2. 概率测度的变换。这两个任务都是高度非线性的，关于测度变换数学上已经建立了严格的基础理论，我们可以进行定量研究；关于从隐空间到图像空间的变换，目前的理论基础比较薄弱，我们只能进行定性比较。
为此，我们设计了两个尽可能简单的实验，来分别验证这两个功能：
测度变换实验给定实验数据分布 http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7lZpqZPLHUrpMGtSfZHSNxPXzzDBjgev7oVjtTCHw1cWUKqRoPnO9lA/640?wx_fmt=png，我们的几何算法给出了精确解，我们试图用WGAN来解决同样的问题，进行详细比较。为了排除编码、解码映射的影响，我们设计隐空间和图像空间重合，因此WGAN只计算了测度变换。
我们在这里，进行了两个实验，第一个实验的训练样本只有一个团簇，WGAN的生成分布和数据分布吻合得非常好。
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7GE9gtvgZO5aTAIBAGYt0Lv5ichYdoF3hjrYxH0kXxBkaic2unlfhVcgA/640?wx_fmt=png图7. WGAN计算结果。
为了可视化计算结果，我们在平面上设计了非常简单的实验，隐空间的概率分布为均匀分布。如图7所示，蓝色点代表数据样本，橙色点代表WGAN生成的样本。数据样本分成两个团簇，符合Gaussain Mixture的分布。我们看到WGAN最后的学习结果并不令人满意，橙色点的分布和蓝色点的分布相距甚远。

http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7961AlXmvQlaSJ3ZPicZKjY0BKCn8WTzhicQibBOSkgsupUyMmx2l5NL6A/640?wx_fmt=png图8.几何方法计算结果。
图8显示了几何方法生成的结果：每个胞腔映到一个具有同样颜色数据样本，上包络的面和它的投影胞腔具有同样的颜色。我们可以看到，首先最优传输映射将单位圆盘映射到所有的数据样本；其次，所有的power 胞腔都具有相同的面积，这意味着几何方法完美地生成了经验分布 http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7lZpqZPLHUrpMGtSfZHSNxPXzzDBjgev7oVjtTCHw1cWUKqRoPnO9lA/640?wx_fmt=png。我们注意到，Brenier势能函数（上包络）有一个尖脊，将梯度分成了两个团簇，因此能够处理多个团簇的分布逼近问题。
我们认为基本原因如下：WGAN用深度神经网络来构造测度变换映射，深度神经网络所能表达的函数为线性映射和ReLu的复合，因此http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7Z5wnVPMFxyap41HiamBNoFqZ14UX52muFeKg6hjWXwtx9WKhu555ibrg/640?wx_fmt=png必为连续映射。但是，由于数据样本构成为多个团簇，真正的最优传输映射必是非连续的映射，因此问题的解并不包含在深度神经网络构成的泛函空间中。
http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7EFiarrPZk58atvnwaTk1w7ZkdckczIbHrtiaDuALFC93ibnkwEkuAmrQQ/640?wx_fmt=png图9. 弥勒佛曲面。

http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7yYLYYzian7L07rvB4KcHVBfSEg0oCyEpsYVswbDEM5qQM7cyxoT4RyA/640?wx_fmt=png
[*]图10. 几何方法构造的编码映射：左侧是保角变换，右侧是保面积映射，两者之间相差一个最优传输映射。

解码映射我们设计的第二个实验更为复杂。我们将三维欧氏空间视为图像空间http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7ukzUwkoPaeSvY112LVB6rw3WP5ERIgz53WcUSYLn6sSSICdfv3Ks8g/640?wx_fmt=png，弥勒佛曲面作为子流形http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png，二维欧氏平面作为隐空间http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7bYhmXkGYEGOCwGlxUhG0Ryq4DNxt66bDfW8ia6zclNanqa7dxFoeXuQ/640?wx_fmt=png。我们的目的是做一个生成器，生成在曲面上的均匀分布。这里，子流形的几何比较复杂，我们先用几何中的Ricci流【5】的方法计算编码映射，将曲面映入到特征空间上, 映射将曲面的面元映到隐平面上面, 诱导了平面上的测度由曲面的共形因子来描述，如图10左帧所示。然后，我们计算隐空间到自身的最优传输映射，将均匀分布映射到由曲面共形因子定义的概率测度（即曲面上的面元），这样就得到从曲面到隐平面的保面元映射，得到图10右帧所示。
http://mmbiz.qpic.cn/mmbiz_jpg/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7H1t92jv1DHAsibXEkwNYXgwfz68znks0SYIePgE9A768xMNQSHtRJLQ/640?wx_fmt=jpeghttp://mmbiz.qpic.cn/mmbiz_jpg/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7nn5wWHuuMYc471lpbF7lO9ePW29UWmJic3whqtn59iaflJB60ZkcC3OA/640?wx_fmt=jpeg图11. 共形映射诱导的曲面上非均匀分布。
http://mmbiz.qpic.cn/mmbiz_jpg/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7BuSBHGvOb3twzctg8deTa01XUr484Yd1KC0EoaIx5Itz46YqoribBRA/640?wx_fmt=jpeghttp://mmbiz.qpic.cn/mmbiz_jpg/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7q8uic1u2U9ibWUeGtwAiaWKojAtib0vibq1nCodZumyIYeFVRiaoftrKia9DQ/640?wx_fmt=jpeg图12. 最优传输映射诱导的曲面上均匀分布。
从图11我们看到，隐空间上的均匀分布被共形映射拉回到http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png上，不再是均匀分布；图12显示，复合了最优传输映射之后，隐空间上的均匀分布被保面元映射拉回到http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png上依然是均匀分布。由此，我们用几何方法构造了曲面http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7iaZybVSyqkE3xeSFdEq6A0w8ATicGUnbPNPKog4ZTyvew9sUnYjYqy1Q/640?wx_fmt=png上均匀分布的生成器。
但是，我们用同样的数据样本来训练WGAN模型，但是很难得到有意义的结果。如果读者有兴趣用其他深度学习模型进行研究探索，我们非常乐于分享这些数据，共同探讨提高。

讨论在最优传输理论中，如果距离函数是http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h77IxEZxRxAsJ6EPvEk5xYKMjOU3JHsHxBhNgNhrD8SFVgLRkCXLMIXw/0?wx_fmt=gif，这里http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7L60VuZ1tAmVFjy12vfU28dYHArFRsBDMSEBg2c8Y8iapnhhBeh73jaw/0?wx_fmt=gif是严格凸的函数，那么判别器的Kantorovich势能函数蕴含着最优传输映射，因此判别器和生成器之间的竞争没有必要。生成模型的最终目的是生成的概率分布，对于同一个目标概率分布，有无穷多个传输映射都可以生成。我们可以选择计算最为简单的一个，即http://mmbiz.qpic.cn/mmbiz_png/JcQsXQ30gelXYwM3lvdqXJnky1Ut52h7RA6icZJ1LjbcNgEunF8Oc5hf0rz92mc7P53f1zzgv3Y4aRIeTR115OA/0?wx_fmt=gif距离所诱导的最优传输映射，因为这个映射具有鲜明的几何意义。
理论上，概率分布之间的变换可以在图像空间中完成，也可以在隐空间中完成。但是在实践中，隐空间的维数远低于图像空间，因此应该在隐空间中施行。因此，生成模型具有两个任务：一个是计算编码解码映射，另一个是概率分布变换。目前的模型，将这两个任务混同，因此难以分析。

[*]我们的初步实验表明深度神经网络无法表达非连续映射，但是最优传输映射往往是有间断点的，因此目前的GAN模型需要进一步拓展。
[*]对于降维的编解码映射，目前完备的基础理论尚未建立起来，很多方面比较含混原始，例如GAN的收敛性验证，收敛阶估计，误差分析和控制。
我们计划用更为精细的实验来详尽分析，更期待看到基础理论方面的长足发展。

小结我们这里给出了最优传输映射观点下GAN模型的几何解释，指出了生成器和判别器之间的对抗竞争和交替训练可以被省略，而用显示的数学关系来取代。GAN模型主要任务分为编解码和概率测度变换，概率测度变换可以用透明的几何算法来解释并改进。初步试验结果显示了GAN模型构造的函数空间具有一定的局限性，无法表示经验数据的分布。

鸣谢长期以来，丘成桐先生的团队坚持用几何的观点来阐述和改进深度学习模型。早在2017年2月初，笔者就撰文写了“看穿机器学习的黑箱”系列，（可以查阅【I】，【II】,【III】），这些文章引起了很大的反响。许多学者和科研机构和团队成员联系，邀请我们前去给报告，我们将会在几个大会上详细解释我们的工作：全国计算机数学会议（10月20日，湘潭），2017中国计算机科学大会（10月26日，福州）第二届智能国际会议（10月27日，ICIS2017，上海）。我们和许多专家学者进行过讨论深入交流，特别是得到张首晟先生的鼓励，我们才总结成文，在此一并致以谢意！详细的数学推导和实验结果可以在【7】中找到。
最后，我们以张首晟先生的第一性原理来结束此文：“人类看到飞鸟遨游行空，便有了飞翔的梦想.但是早期的仿生却都失败了。理论物理指导我们理解了飞行的第一性原理，就是空气动力学，造出的飞机不像鸟却比鸟飞地更高更远。人工智能也是一样，人类的大脑给了我们智能的梦想，但不能简单地停留在神经元的仿生,而要理解智慧的第一性原理，才能有真正的大突破！”

References
[*]Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks". arXiv:1406.2661 
[*]A. D. Alexandrov. “Convex polyhedra” Translated from the 1950 Russian edition by N. S. Dairbekov, S. S. Kutateladze and A. B. Sossinsky. Springer Monographs in Mathematics. Springer-Verlag, Berlin, 2005.
[*]Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein generative adversarial networks. In International Conference on Machine Learning, pages 214–223, 2017.
[*] Yann Brenier. Polar factorization and monotone rearrangement of vector-valued functions. Comm. Pure Appl. Math., 44(4):375–417, 1991.
[*]Xianfeng Gu, Feng Luo, Jian Sun, and Tianqi Wu. A discrete uniformization theorem for polyhedral surfaces. Journal of Differential Geometry (JDG), 2017.
[*]Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. Variational principles for minkowski type problems, discrete optimal transport, and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383 C 398, 2016.
[*]Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, A Geometric View of Optimal Transportation and Generative Model, arXiv:1710.05488.

页: [1]

弧论坛's Archiver

虚构的对抗，GAN with the wind