The Dynamics of Reinforcement Learning in Cooperative Multiagent Systems

传送： https://www.aaai.org/Papers/AAAI/1998/AAAI98-106.pdf

多智体入门论文，之前看多智体的文章比较少且比较难看懂，找师兄推荐了篇比较早的简单的论文

自己总结的摘要：在单state的场景，通过重复训练来学习Q value，探索了智能体能观察到彼此（JALs）和智能体只知道自己（ILs）两种多智能体系统使用q-learning的表现，在满足一定条件的情况下都可以达到纳什均衡，但是不保证收敛到最优的纳什均衡，论文给出新的探索方式可以让JALs达到纳什均衡。

纳什均衡：对于每个智能体，在其他智能体不变策略的情况下，选择最优的策略

探索策略：

normal Boltzmann (NB) :

T随着训练降低

JALs的Q func

该方法不保证能到达最优

WOB和Combined方法更有可能到达最优（文章没有严格的证明）

总结思考：考虑公平在这篇文章上没有太大用处，因为本文的场景所有agent只有一个reward，只需要让reward更大，所以更多的考虑探索过程，如何有效的探索并且能让agent达成共识，在这个场景下可能直接使用一个agent，把action分成多维度可能更好。