FairnessIsNotStatic

Fairness Is Not Static

Motivation:

当前的Fairness都是静态的，数据都是fixed，而长期动态的环境中，现有的公平算法可能并不适用。

主要内容：

主要介绍了三个 ml-fairness-gym 的仿真环境，通过实验与静态的方法对比，发现静态方法在动态环境中可能会有一些问题。

环境介绍

场景一：Lending

银行设定阈值来作为是否借款的依据，探究不同的策略带来的长期影响和对不同群体的公平影响。

Environment：借款申请人

两个群体，一个优势，一个劣势。

可观测群体属性，离散的信用评分$C\in1,2,3,..,C_{max}$，假定评分到还款概率$\pi(C)$的映射是固定的，优势群体信用评分的分布要高点。

成功还款的话，用户信用上涨c+，agent收益上升r+，如果拖欠，信用下降c-，agent收益下降c-。

Metrics：信用分布，累计的借贷，总真阳率

agent：银行，根据信用评分决定是否借款。

两种agent：

max-reward

寻找阈值最大收益。

因为收益的r+和r-都是定值，所以只要期望大于0应该就可以借，$\pi(C)>\tau$。所以阈值是fixed的。

前200轮全都借，然后找到固定的阈值。
EO

对不同的群体使用不同的阈值，在每一步中，在不同群体TPR相同的限制下最大化收益。用随机插值将ROC补成连续。（ROC如何得到是个问题）

还有很多细节还是得看代码里怎么写的

实验结果

实验是简化的，EO agent是知道当前信用分布的和对应的概率的，那么阈值-真阳率的图像就好做了

初始分布如下：

max-reward的方法的结果如下。在论文里有分析，如果经过无穷轮，因为信用一旦低于阈值就永久不再能借款，会导致所有的都到阈值以下。

EO的结果如下：

EO相对来说分布的差距还变得更大了。

累计的贷款数量和群体的还款概率如下：

可以看出EO agent会给弱势群体更多的福利，但是群体的信用，弱势群体下降的更快。

下图是EO agent的阈值的设定，和正阳率的一个趋势图。

可以看到，对于群体2的阈值设定要更低一点。

而且TPR即使在每一轮中都相同，最后总的TPR也是不同的，如下图。

场景二：Attention Allocation

Agent分配有限的注意力到多个不同的地方，每个地方有不同的发生事故的概率，探究不同策略带来的长期影响

Environment：不同地点，每个地点发生事故的数量满足Poisson分布

agent要分配N个注意，有K个地方，每个时间t每个地方发生事故的数目为$y_{kt} \sim \rm{Poisson}(r_k,t)$

发现的数目为$\hat{y}{kt}:=\rm{min}(a{kt},y_{kt})$

考虑动态情况的话，发生的概率会随着attention的数目改变，$d$为常数

Metrics：

总的发现数目，总的错过数目（真实世界中比较难得到）

作为公平度量。

Agent：

均匀分配的uniform agent

proportional agents通过对$r$的估计值$\hat{r}$，探索策略epsilon-greedy，$\epsilon$的概率均匀分配，$1-\epsilon$的概率按照原计划

fairness-constrained greedy agent，sequentially的分配，最大化 the probability that the next unit of attention will result in a discovery ，限制the maximum gap in discovery probabilities between sites小于$\alpha$

实验结果

5地方$[8,6,4,3,1.5]$，6个attention

静态环境表现差不多，动态环境中，purely greedy发现高，错过的也高，所以并不能只把发现的作为优化目标。

purely greedy会过多分配注意在刚刚发现了事故的地方

公平的测量如下

uniform的表现较差，proportional epsilon=0.1和greedy alpha=0.75效果比较好

场景三：college admission

学校要公布选择的规则，申请者可以cost to（可以理解为花费精力）改变分数。是一个Stackleberg博弈。

探索repeated play和以前的one-shot方法达到的均衡的差别。

鲁棒性的策略可能会带来公平问题，合格的人也需要发费精力，而且不同的群体的花费是不同的。

Environment： agent公布阈值分数$\tau$，环境产生带有ground truth的申请者，这些申请者是理性的，只有改分数能去理想的学校而且cost不是过高才会改分数。

Agent：目标是最大化准确度。

static agent前几轮全接受，然后训练一个分类器，使用未更改的(score, label)对，这个label应该是是否合格，但是agent是否知道没说。

robust agent使用以前论文的算法获得一个robust的agent，分类准确率应该是可以达到和未改分情况下一样的准确率。

continuous agent gathers an initial set of unmanipulated applicants, then continuously retrains a non-robust classifier based on the subsequent manipulated scores and labels that it observes.

实验结果

竖着的几条对应着阈值大小

其他的曲线表示阈值与准确率，社会负担（合格者需要的花费）的关系，左边是分数和合格之间的关系没有噪声，右边是有噪声。

可以看到有噪声的情况，即使continuous agent未考虑鲁棒性，结果与鲁棒性agent的结果是一样的。