0%

The Dynamics of Reinforcement Learning in Cooperative Multiagent Systems

传送: https://www.aaai.org/Papers/AAAI/1998/AAAI98-106.pdf

多智体入门论文,之前看多智体的文章比较少且比较难看懂,找师兄推荐了篇比较早的简单的论文

自己总结的摘要:在单state的场景,通过重复训练来学习Q value,探索了智能体能观察到彼此(JALs)和智能体只知道自己(ILs)两种多智能体系统使用q-learning的表现,在满足一定条件的情况下都可以达到纳什均衡,但是不保证收敛到最优的纳什均衡,论文给出新的探索方式可以让JALs达到纳什均衡。

纳什均衡:对于每个智能体,在其他智能体不变策略的情况下,选择最优的策略

探索策略

normal Boltzmann (NB) :

1588302887668

T随着训练降低

JALs的Q func

1588303227934

该方法不保证能到达最优

1588303328655

WOB和Combined方法更有可能到达最优(文章没有严格的证明)

总结思考:考虑公平在这篇文章上没有太大用处,因为本文的场景所有agent只有一个reward,只需要让reward更大,所以更多的考虑探索过程,如何有效的探索并且能让agent达成共识,在这个场景下可能直接使用一个agent,把action分成多维度可能更好。