0%

FairnessIsNotStatic

Fairness Is Not Static

Motivation:

当前的Fairness都是静态的,数据都是fixed,而长期动态的环境中,现有的公平算法可能并不适用。

主要内容:

主要介绍了三个 ml-fairness-gym 的仿真环境,通过实验与静态的方法对比,发现静态方法在动态环境中可能会有一些问题。

环境介绍

场景一:Lending

银行设定阈值来作为是否借款的依据,探究不同的策略带来的长期影响和对不同群体的公平影响。

Environment:借款申请人

两个群体,一个优势,一个劣势。

可观测群体属性,离散的信用评分$C\in1,2,3,..,C_{max}$,假定评分到还款概率$\pi(C)$的映射是固定的,优势群体信用评分的分布要高点。

成功还款的话,用户信用上涨c+,agent收益上升r+,如果拖欠,信用下降c-,agent收益下降c-。

Metrics:信用分布,累计的借贷,总真阳率

agent:银行,根据信用评分决定是否借款。

两种agent:

  1. max-reward

    寻找阈值最大收益。

    因为收益的r+和r-都是定值,所以只要期望大于0应该就可以借,$\pi(C)>\tau$。所以阈值是fixed的。

    前200轮全都借,然后找到固定的阈值。

  2. EO

    对不同的群体使用不同的阈值,在每一步中,在不同群体TPR相同的限制下最大化收益。用随机插值将ROC补成连续。(ROC如何得到是个问题)

还有很多细节还是得看代码里怎么写的

实验结果

实验是简化的,EO agent是知道当前信用分布的和对应的概率的,那么阈值-真阳率的图像就好做了

初始分布如下:

1588856812650

max-reward的方法的结果如下。在论文里有分析,如果经过无穷轮,因为信用一旦低于阈值就永久不再能借款,会导致所有的都到阈值以下。

1588856851070

EO的结果如下:

1588857016286

EO相对来说分布的差距还变得更大了。

累计的贷款数量和群体的还款概率如下:

1588857167690

可以看出EO agent会给弱势群体更多的福利,但是群体的信用,弱势群体下降的更快。

下图是EO agent的阈值的设定,和正阳率的一个趋势图。

1588858013328

可以看到,对于群体2的阈值设定要更低一点。

而且TPR即使在每一轮中都相同,最后总的TPR也是不同的,如下图。

1588858182023

场景二:Attention Allocation

Agent分配有限的注意力到多个不同的地方,每个地方有不同的发生事故的概率,探究不同策略带来的长期影响

Environment:不同地点,每个地点发生事故的数量满足Poisson分布

agent要分配N个注意,有K个地方,每个时间t每个地方发生事故的数目为$y_{kt} \sim \rm{Poisson}(r_k,t)$

发现的数目为$\hat{y}{kt}:=\rm{min}(a{kt},y_{kt})$

考虑动态情况的话,发生的概率会随着attention的数目改变,$d$为常数

1588900713333

Metrics

总的发现数目,总的错过数目(真实世界中比较难得到)

1588900949529

作为公平度量。

Agent

均匀分配的uniform agent

proportional agents通过对$r$的估计值$\hat{r}$,探索策略epsilon-greedy,$\epsilon$的概率均匀分配,$1-\epsilon$的概率按照原计划

fairness-constrained greedy agent,sequentially的分配,最大化 the probability that the next unit of attention will result in a discovery , 限制the maximum gap in discovery probabilities between sites小于$\alpha$

实验结果

5地方$[8,6,4,3,1.5]$,6个attention

1588902753228

静态环境表现差不多,动态环境中,purely greedy发现高,错过的也高,所以并不能只把发现的作为优化目标。

1588905665078purely greedy会过多分配注意在刚刚发现了事故的地方

公平的测量如下

1588907283086

uniform的表现较差,proportional epsilon=0.1和greedy alpha=0.75效果比较好

场景三:college admission

学校要公布选择的规则,申请者可以cost to(可以理解为花费精力)改变分数。是一个Stackleberg博弈。

探索repeated play和以前的one-shot方法达到的均衡的差别。

鲁棒性的策略可能会带来公平问题,合格的人也需要发费精力,而且不同的群体的花费是不同的。

Environment: agent公布阈值分数$\tau$,环境产生带有ground truth的申请者,这些申请者是理性的,只有改分数能去理想的学校而且cost不是过高才会改分数。

Agent:目标是最大化准确度。

static agent前几轮全接受,然后训练一个分类器,使用未更改的(score, label)对,这个label应该是是否合格,但是agent是否知道没说。

robust agent使用以前论文的算法获得一个robust的agent,分类准确率应该是可以达到和未改分情况下一样的准确率。

continuous agent gathers an initial set of unmanipulated applicants, then continuously retrains a non-robust classifier based on the subsequent manipulated scores and labels that it observes.

实验结果

1588927276507

竖着的几条对应着阈值大小

其他的曲线表示阈值与准确率,社会负担(合格者需要的花费)的关系,左边是分数和合格之间的关系没有噪声,右边是有噪声。

可以看到有噪声的情况,即使continuous agent未考虑鲁棒性,结果与鲁棒性agent的结果是一样的。