在联邦学习激励机制的博弈论《唔讲粗口:联邦学习中的经济激励——个体理性约束》《唔讲粗口:联邦学习中的经济激励——激励相容》启示下,我们可以开始研究联邦学习激励机制博弈论的理论框架。联邦学习之激励机制设计是为联邦找到最优的组织和支付结构,从而实现一系列优化目标。组织结构包括使用哪些数据提供者的数据和如何控制模型的使用,支付结构指的是我们给每个参与方支付的金额。遵循经济学的传统,我们画出了联邦学习经济资源循环流向图(如下):
在联邦学习中,模型使用者是否贡献数据和是否使用模型应该分开。在这个模型中,供给侧和需求侧是分离的。一个数据提供者是否提供数据、提供多少数据,与Ta能否使用模型和使用模型需要支付多少费用是无关的。
在我们设计的框架下,联邦学习的参与者可以是数据提供者,也可以是模型使用者,或者两者兼具。在供给侧,数据提供者提供数据,获得报酬。在需求侧,模型使用者使用模型,并支付一定的费用。这时,数据提供者和模型使用者都会遵循Ta的个体利益最大化的原则去选择策略。在供给侧,数据提供者会选择报告Ta所拥有的数据量以及贡献数据的成本。在需求侧,模型使用者会报告Ta使用模型得到的收益。在可以预期参与者上述行为逻辑的情况下,我们的联邦学习组织者要决定四件事情:
决定使用哪些数据提供者的数据,以及从每个数据提供者中使用多少数据;
计算给每个数据提供者的报酬;
在需求侧计算对不同模型使用者使用模型的权限控制;
计算对每个模型使用者收取的费用。对联邦学习的组织者而言,经济激励计算可以被设置成比较标准的计算机模块。
这个模块的输入是数据提供者报告拥有的数据量、数据提供者报告的成本类型以及模型使用者报告的价值类型。模块的输出是从每个数据提供者那接收的数据、给每个数据提供者提供的报酬、使用模型的权限,以及向每个模型使用者的收费。
在这样的框架下,我们遵循激励机制设计所需要的两个准则:
1、理性人准则
正如刚才所提到的,设计者面对的都是追求自身利益最大化的理性人。
2、信息不对称准则
设计者和理性人之间的信息是不对称的。信息不对称包括三种情形:
Unaware,所谓的“黑天鹅事件”,完全不知道某件事会发生;
Uncertain,知道某些事情有可能发生,不知道事情发生的概率;
Unknown,知道事件发生的概率分布,但不知道具体发生了哪些事件。
此外,我们基于联邦学习激励机制设计了一些假设:
假设1:拟线性环境&基于货币的机制设计。我们假设每个参与者的效用关于其拥有的金钱是呈线性的。由于有这个假设,我们可以通过调节给不同参与者的支付货币来调节Ta的效用,激励Ta。
假设2:数据供给与模型需求分开。
假设3:存在外生资本市场。所以我们可以跨期调节联邦学习的现金流,因为一般的联邦学习项目开始有巨大现金投入,之后才产生收入,投入和收入在时间上不一定匹配。
在上述的假设下,我们优化了如下的目标:
非常不幸的是,上述的目标之间存在此消彼长的平衡关系。所以在实际应用中,我们往往只选择其中最重要的几个目标进行优化。
具体方案
为了说明联邦学习激励机制不是一个抽象的理论概念,我们简单介绍两个具体的方案:
方案一:位于需求侧的Cremer-McLean机制
它是一个非常著名的博弈论机制,在需求侧可以最大化联邦的收入。Cremer-McLean证明了如果不同模型使用者之间使用模型产生收益存在一定的相关性,那么我们就一定可以找到一种支付结构使得联邦的收入等于所有模型使用者使用模型的收益之和,从而使联邦收入最大化。可是遵循传统的Cremer-McLean的计算方法是非常昂贵的,所以我们可以通过用梯度下降算法最小化损失函数来求解Cremer-McLean机制,大大减少了计算复杂度。
方案二:位于供给侧的PVCG机制
这个机制的目的主要是激励供给侧提供数据。PVCG机制在著名的VCG机制的基础上加了一个调整项。VCG机制是一个曾经获得诺贝尔奖的理论成果,可以保证诚实报告参数,对每个参与者而言都是占优策略。我们的贡献是,通过优化神经网络加入一个调整项之后,PVCG机制可以同时满足个体理性、激励相容、社会最优以及预算均衡。