强化学习
# 结构 # 第一层结构 强化学习是玩家与环境的互动中为了达成一个目标而进行的学习过程。 # 第二层结构 玩家和环境会处于某种状态 state,状态的含义很广泛,可以说包括了所有的信息,如围棋的落子点的所有状态,3^ 在一个状态之下,玩家需要做出某种行动,也就是 action。比如黑棋先手,当前状态是棋盘上没有棋子,黑棋则可以采取 361 种落子方法。当发生行动之后,状态就会发生变化。 state 和 action,状态和行动的往复就构成了强化学习的主体部分。 reward 是指 agent 在一个状态之下采取了特定的行动之后所得到的及时的反馈。在强化学习中,reward...
more...