联邦学习FedAvg收敛证明

505 words

[ICLR-2020](ON THE CONVERGENCE OF FEDAVG ON NON-IID DATA)


本文谷歌2000+引用,几乎每个论文里提到了“联邦学习算法收敛”的都会引用这个,它证明了FedAvg在Non-IID数据上的收敛性,同时为后面的许多论文证明其方法的收敛性提供了模板。
与之前的文章不同,这篇文章并没有作出以下两个联邦设置中不切实际的假设:(1)数据是IID的;(2)每个客户端总是活跃的。它证明了FedAvg的收敛速度是O(1/T),T是每个设备的SGDs总数。


N是用户设备总数
K是参与每轮通信的最大设备数量
T是每个设备的SGD总数
E是设备在每轮通信的局部迭代次数
T/E是通信轮次


本地损失定义:
image.png
本地优化过程:
image.png
全局优化目标:
image.png
全体参与聚合:
image.png
部分参与聚合:
image.png


假设1:如果是L-Lipschitz的,就有了一个二次函数的上界
image.png
假设2:如果是 μ-strongly convex的,就有了一个二次函数的下界
image.png
image.png
假设3:每个设备的随机梯度的方差是有界的,即单采样和全采样的梯度的L2范数的平方的期望有界
image.png
假设4:单采样的梯度的L2范数的平方的期望有界
image.png


全体设备参与——收敛结果:
image.png


部分设备参与——收敛结果:
image.png

Comments