课程笔记

基本概念

概念以如下图说明:

  • 白色为可行位置
  • 橙色为禁止位置 (能进入)
  • 蓝色为目标位置
  • 边界不可逾越

State

状态是智能体所处的环境状态,状态表示为 ,例如机器人所在的九宫格

State space

状态空间表示状态的集合,表示为 ,例如九宫格共有九个位置

Action

行动是第 时刻采取的行为 ,例如机器人有上()、右 ()、下 ()、左 ()、不动 ()五种行动

Action space of a state

行动空间是不同状态下的行动的集合,表示为 ,显然行动的范围是与当前所处的状态相关。

State transition

状态转移: 定义了 agent 和环境的交互行为,例如机器人如果规定在状态 必须右走,则转移概率

Policy(unique)

策略是智能体在当前状态下应该做什么行动,用概率表示在最简单的情况下确定性情况下这么写

随机情况写可以这么写

Reward

在采取行动之后得到一个奖励

  • 正收益表示应该多采取这样的行动
  • 负收益表示应该惩罚采取这样的行动

奖励的例子:

  • 若行动出边界,奖励
  • 若行动进入禁止区域,奖励
  • 若行动达到目的地,奖励
  • 其余行动,奖励

结果:在不同状态下用确定性的策略 会有以下的奖励:

并且写成奖励的概率分布形式如下: and

  • 从教育的角度看,如果付出努力了,就会得到正的收益,只是多少不确定
  • 收益是取决于当前状态和做出的行动,与下一个状态无关。从教育角度看,只要付出努力了,都是值得鼓励的,尽管分数有高有低

Trajectory

Trajectory是一条状态-行动-奖励的轨道链,可一直持续下去

Trajectory 1:

Trajectory 2:

Return

Return 是一条 trajectory 的累计奖励,例如:

Trajectory 1 的 return 是

Trajectory 2 的 return 是

尽管都到达终点,但总体的 return 收益大,因此更好

Discounted return

如果根据上述确定性的策略,这条轨道无限长且收益无穷大发散,因此需要引入 discount:

discounted return =

Episode

  • 在某决策下与环境的交互,智能体若停在某一个最终状态,这个时候的 trajectory 称作 episode,有限步的 trajectory 下的任务称作 episode tasks
  • 若任务没有最终的状态,则这些任务称为 continue tasks
  • Episode tasks 转换成 continue tasks,例如机器人寻路是有限的任务,但通过设置终点吸收态,让其下一步行动都是回到终点,

Markov decision process

  • Set
    • 状态集 state:所有状态的集合
    • 行动集 action:所有行动的集合 ,依赖于
    • 奖励集合 reward:所有奖励的集合 ,依赖于
  • 概率分布
    • 状态转移概率分布
      • ,在当前状态 和行动 下,下一个状态 的概率
    • 收益概率分布
      • 在当前状态 和行动 下,收益为 的概率
  • 决策 policy
    • 在状态 下,采取不同行动的概率 称为策略,这是行动的依据
  • 马尔可夫性质:无记忆性,与历史无关
    • ,
    • .
  • 马尔可夫决策过程 markov decision process
    • Markov:无记忆性与历史无关
    • Decision:存在决策 policy
    • Process:状态根据行动到另一个状态
  • 当 polily 给定后,即转移概率给定后,MDP 变为马尔可夫过程

Summury

  • 状态
  • 行动
  • 状态转移、状态转移概率
  • 奖励、奖励分布
  • Trajectory、episode、return,discounted return
  • 马尔可夫决策过程 MDP