强化学习 | Mi Manchi = yuan = Whatever is worth doing at all is worth doing well

# 结构

# 第一层结构

1660531751942

1660531786572

强化学习是玩家与环境的互动中为了达成一个目标而进行的学习过程。

# 第二层结构

1660532064103

玩家和环境会处于某种状态 state，状态的含义很广泛，可以说包括了所有的信息，如围棋的落子点的所有状态，3^

在一个状态之下，玩家需要做出某种行动，也就是 action。比如黑棋先手，当前状态是棋盘上没有棋子，黑棋则可以采取 361 种落子方法。当发生行动之后，状态就会发生变化。

state 和 action，状态和行动的往复就构成了强化学习的主体部分。

reward 是指 agent 在一个状态之下采取了特定的行动之后所得到的及时的反馈。在强化学习中，reward 通常是一个实数，并且可能是 0。比如在围棋中，玩家的目标是赢棋，那么只有在达到赢棋的状态时才会有一个大于 0 的奖励。可以规定，赢棋的奖励为 1，输棋或者和棋的奖励为 0，而在棋局结束之前，任何一次行动得到的奖励都为 0。奖励应该是由最终的目标决定的。如果在围棋中对吃掉对方的子进行奖励，那么强化学习的结果就会倾向于吃掉对方的子。

根据最终的目标合理的设置奖励对强化学习是很重要的。

强化学习的目的，就是最大化总的奖励。奖励是及时的反馈，目标是长远的结果。

# 第三层结构

1660532859320

策略和价值

策略是指在某一个状态下应该采取什么样的行动，在数学上，策略就是一个函数，它的自变量即输入是一个状态，而因变量即输出则是一个行动。

强化学习想要达到的最终效果，就是一个好的策略。

价值也是一个函数，并且策略函数取决于价值函数。

价值函数通常有两种，一种是 state value，称为状态价值函数，它的输入是一个状态，输出是一个实数，表示当前状态的价值。预期将来得到的奖励之和。通过状态价值函数，玩家应该尽可能选择进入价值尽可能大的状态，而这是通过特定的行动来实现的，这就是状态价值函数决定了玩家的策略。另一种是 state-action value，状态行动价值函数，在特定状态下，采取特定行动所具有的价值（行动所具有的价值是和所处的状态有关的），价值指的也是将来能够得到的所有奖励之和的期望值。在一个特定的状态下，根据状态行动价值函数，玩家应该选取价值最大的那一个行动，这就是状态行动价值函数决定了玩家的策略。

强化学习所要学习的东西，实际上就是一个好的价值函数。而一个好的价值函数决定一个好的策略。

# 特点

# trial and error 试错

强化学习是一种试错学习，也就是在不断的尝试中去学习

# delayed reward 延迟奖励

行动没有对应及时的奖励，但是每一步棋对于最后的胜利都是有贡献的。这就导致一个行动可能没有奖励，但是一定有价值。不过，一个行动所具有的价值只有在得到奖励之后才能真正得到体现。

复盘：学习每一个行动所具有的价值的过程

# 核心问题

exploration vs exploitation

exploitation 即 “利用”，利用的是强化学习所学习到的价值函数，比如已经有了一个状态行动价值函数，采取价值最高的行动，这就是 exploitation。

但是学习到的价值函数不一定是最优的价值函数，所以不仅仅需要去利用已经学习到的价值函数，还应该去尝试不同的行动，从而优化我们的价值函数，这就是 exploration，探索

exploration 和 exploitation 之间的权衡问题，是强化学习的核心问题。

# 实例

# K-armed Bandit 多臂老虎机

强化学习中最简单的问题

只有一个状态，老虎机不会改变，玩家只需要选择一个行动即可；没有延迟奖励，奖励是及时的，不会对以后的事情产生任何的影响。只需要去学习不同行动所具有的的价值，也即 state-action value，由于此处只有一个状态，可以简化为 action value。

此处认为奖励是一个服从一定概率分布的随机变量。两个老虎机，对应的概率分布可能是不同的，但是概率分布是固定的，不会改变。概率分布有一个期望值，最优值就是期望值更大的那个。

一个完整的强化学习问题，需要考虑多个状态。并且每一次行动，都会对将来的状态变化和得到的奖励产生影响。

强化学习