最优传输应用

最优传输与 Wasserstein 距离简介
最优传输理论(Optimal Transport, OT)关注如何以最低代价将“质量”(或概率分布)从一个位置搬运到另一个位置。 从“用土修筑防御工事,怎样运输最省钱”的实际问题出发,Monge(1781)最开始讨论并研究最优传输理论。 而到了20 世纪 40 年代,Kantorovich重新表述了这个问题,并通过联合分布(耦合)来描述不同边缘分布之间的质量搬运。 Wasserstein 距离则是在最优传输框架下定义的分布之间的“几何距离”,可定量衡量两组概率分布的差异与相似性。 与 Kullback–Leibler 散度等描述分布之间关系的指标相比,W 距离是严格的度量,满足度量公理(非负性、同一性、对称性、三角不等式),因此在比较分布时更稳定、更有几何可解释性。
Wasserstein 距离的物理直观描述
假设我们要将土堆 $\mu$ 搬运并重塑为另一个形状的土堆 $\nu$:
- 最小功原则: 我们希望搬运的质量与路程的乘积之和尽可能小。这一过程的总做功即对应 Wasserstein 距离。
- 质量守恒: 搬运前后沙子的总量保持一致。因此,任何满足质量守恒的函数分布(如概率分布、归一化后的密度场)都可以作为研究对象。
- 传输方案: 规划如何搬运每一块质量的详细方案 $M$,在数学上被称为最优传输方案或最优联合概率分布。
从这个例子我们可以看出Wasserstein距离一些应用:
- 量化分布形态差异: 土堆差异越大,做工需要越多,所以Wasserstein距离可以描述两个土堆分布之间的差异程度。
- 路径规划与联合概率分布:Wasserstein距离伴随的最优传输方案可以帮助我们找到最优的搬运方案(最优联合概率分布),实现最小化搬运成本(土堆分布差异)。
- 动力学应用:除此之外,在流体力学中,Wasserstein 距离与梯度流理论深度耦合。
Wasserstein距离的计算
- 理论计算:
对于μ和ν两个分布来说,Wasserstein 距离基本定义为:
\(W(μ,ν) = inf_{\pi ∈ \Pi(μ,ν)}\int_{R_d \times R_d}c(x,y)d\pi(x,y)\)其中$c(x,y)$是从μ上点x到ν上点y的距离,$\pi(x,y)$是μ和ν的联合概率分布。
对于1D Wasserstein距离,计算可以通过分位数函数实现
\(W_p = (\int_0^1 |F_μ^{-1} - F_ν^{-1}|^p du)^{\frac{1}{p}}\)其中$F_μ^{-1}$和$F_ν^{-1}$分别是μ和ν的分位数函数。p=1时又称“推土机距离”。
- Python库(实用):
- SciPy:
scipy.stats.wasserstein_distance可直接计算 1D 经验分布的 $W_1$。 - Python Optimal Transport(POT):
ot.emd2可计算 EMD(需要给定由 L1 距离构成的代价矩阵);POT 是高效的精确 OT 求解器之一,但不适合“大样本规模”的 OT 问题。
- SciPy:
Wasserstein距离在气候科学中的一部分应用
参考文献
Figalli, A., & Glaudo, F. (2021). An invitation to optimal transport, Wasserstein distances, and gradient flows.
