云似乎在学习

0%

深度学习基本优化

发表于 2020-07-27 更新于 2020-08-02 分类于深度学习阅读次数：

阅读全文 »

常微分方程一

发表于 2020-07-26 更新于 2020-08-02 分类于常微分方程一阅读次数：

学习视频 https://www.bilibili.com/video/BV1bx411s7pb?from=search&seid=18075226513527190717

方程：恒等式里面包含了未知

微分方程：未知量里既有自变量、未知函数，又有未知函数的导数的函数方程

讲解的场景都是物理的场景，前两个视频里面主要是一些基础的概念性的知识

无监督学习之wordEmbedding

发表于 2020-07-25 更新于 2020-08-02 分类于深度学习阅读次数：

目标

word embedding要做的是将每一个word project到高维空间中

阅读全文 »

强化学习8.7-8.11

发表于 2020-06-15 分类于强化学习阅读次数：

8.7 RTDP

实时动态规划（RTDP）是动态规划值迭代算法的on-policy轨迹采样版本。RTDP的状态价值更新是根据DP中的值迭代方法来做的，公式如下。但不同于DP的一点是更新轨迹中出现的状态的价值。

RTDP是一种异步DP。异步DP是指状态价值的更新顺序并非一个接一个的，而是不固定的。在RTDP中价值更新的顺序是根据其出现在轨迹（真实轨迹或仿真轨迹都可）中的顺序来的。

RTDP的特点：

利用值迭代的方法异步更新
根据采样的序列更新值函数
使用on-policy的策略，总是贪心的选择使得值函数最大的动作。

阅读全文 »

Chapter 3 Fairness in cooperative Mutiagent Systems

发表于 2020-06-11 更新于 2020-06-13 分类于强化学习阅读次数：

Cooperative MASs: common goal

一个传统的做法是采用一个super agent，缺点是复杂度随着agent数量指数增长，并且容易被攻击

An alternative approach, current learning

分配决策的权力给每个agent，如何有效的协作是个问题，因为information有限，交流能力有限

本章的主要内容关注fairness。整体的表现由最差的agent决定。

An Adaptive Periodic Strategy for Achieving Fairness

PER

发表于 2020-06-05 更新于 2020-06-07 分类于强化学习阅读次数：

paper:

https://arxiv.org/abs/1511.05952

Motivation

Experience transitions were uniformly, sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance.

阅读全文 »

强化学习经典论文

发表于 2020-06-04 更新于 2020-06-07 分类于强化学习阅读次数：

DQN

https://b23.tv/yVNMMJ

DuelingDQN

https://b23.tv/vL5GwU

DoubleDQN

https://www.bilibili.com/video/BV16D4y1D794

DRQN

https://b23.tv/hm2Sp3

DPG

https://b23.tv/fcfmRJ

DDPG

https://b23.tv/JubzBq

阅读全文 »

强化学习读书（1.1-6.3）

发表于 2020-06-04 更新于 2020-06-07 分类于强化学习阅读次数：

Ch1.1-Ch1.6：崔昊川

https://blog.csdn.net/qq_41608822/article/details/105902504

Ch2.1-Ch2.4：韦国梁

见正文

Ch2.5-Ch2.8：崔昊川

https://blog.csdn.net/qq_41608822/article/details/105928928

Ch3.1-Ch3.3：韦国梁

见正文

阅读全文 »

FairnessIsNotStatic

发表于 2020-05-06 更新于 2020-06-04 分类于强化学习阅读次数：

Fairness Is Not Static

Motivation:

当前的Fairness都是静态的，数据都是fixed，而长期动态的环境中，现有的公平算法可能并不适用。

主要内容：

主要介绍了三个 ml-fairness-gym 的仿真环境，通过实验与静态的方法对比，发现静态方法在动态环境中可能会有一些问题。

阅读全文 »

The Dynamics of Reinforcement Learning in Cooperative Multiagent Systems

发表于 2020-05-01 更新于 2020-06-04 阅读次数：

传送： https://www.aaai.org/Papers/AAAI/1998/AAAI98-106.pdf

阅读全文 »