0%

8.7 RTDP

实时动态规划(RTDP)是动态规划值迭代算法的on-policy轨迹采样版本。RTDP的状态价值更新是根据DP中的值迭代方法来做的,公式如下。但不同于DP的一点是更新轨迹中出现的状态的价值。

1592202451305

RTDP是一种异步DP。异步DP是指状态价值的更新顺序并非一个接一个的,而是不固定的。在RTDP中价值更新的顺序是根据其出现在轨迹(真实轨迹或仿真轨迹都可)中的顺序来的。

RTDP的特点:

  1. 利用值迭代的方法异步更新
  2. 根据采样的序列更新值函数
  3. 使用on-policy的策略,总是贪心的选择使得值函数最大的动作。
阅读全文 »

Cooperative MASs: common goal

一个传统的做法是采用一个super agent,缺点是复杂度随着agent数量指数增长,并且容易被攻击

An alternative approach, current learning

分配决策的权力给每个agent,如何有效的协作是个问题,因为information有限,交流能力有限

本章的主要内容关注fairness。整体的表现由最差的agent决定。

An Adaptive Periodic Strategy for Achieving Fairness

paper:

https://arxiv.org/abs/1511.05952

Motivation

Experience transitions were uniformly, sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance.

阅读全文 »

Fairness Is Not Static

Motivation:

当前的Fairness都是静态的,数据都是fixed,而长期动态的环境中,现有的公平算法可能并不适用。

主要内容:

主要介绍了三个 ml-fairness-gym 的仿真环境,通过实验与静态的方法对比,发现静态方法在动态环境中可能会有一些问题。

阅读全文 »