Return

Return 的简单例子

这三个相同环境下，给定三种策略，计算三种 return

$re t u r n_{1} = 0 + γ 1 + γ^{2} 1 + ... = γ (1 + γ + γ^{2} + ...) = \frac{γ}{1 - γ} .$

$re t u r n_{2} = - 1 + γ 1 + γ^{2} 1 + ... = - 1 + γ (1 + γ + γ^{2} + ...) = - 1 + \frac{γ}{1 - γ} .$

$re t u r n_{3} = 0.5 (- 1 + \frac{γ}{1 - γ}) + 0.5 (\frac{γ}{1 - γ}) = - 0.5 + \frac{γ}{1 - γ} .$

实际上 return 3 是两个 return 的平均，return 能够判断哪个 trajectory 是比较好的

return 一般计算方法

注意

以下是在确定性策略 $π$ 下的计算

若每此行动都会得到相应的当步收益 $r_{i}$ ，则 return 使用 boostrapping 方法计算（核心是状态之间是有关系的）

从 $s_{1}$ 出发 $v_{1} = r_{1} + γ r_{2} + γ^{2} r_{3} + ... = r_{1} + γ (r_{2} + γ r_{3} + ...) = r_{1} + γ v_{2}$

从 $s_{2}$ 出发 $v_{2} = r_{2} + γ r_{3} + γ^{2} r_{4} + ... = r_{2} + γ (r_{3} + γ r_{4} + ...) = r_{2} + γ v_{3}$

从 $s_{3}$ 出发 $v_{3} = r_{3} + γ r_{4} + γ^{2} r_{1} + ... = r_{3} + γ (r_{4} + γ r_{1} + ...) = r_{3} + γ v_{4}$

从 $s_{4}$ 出发 $v_{4} = r_{4} + γ r_{1} + γ^{2} r_{2} + ... = r_{4} + γ (r_{1} + γ r_{2} + ...) = r_{4} + γ v_{1}$

写成矩阵形式（矩阵形式很有用）：

$v_{1} v_{2} v_{3} v_{4} = r_{1} r_{2} r_{3} r_{4} + γ 0001100001000010 v_{1} v_{2} v_{3} v_{4}$

有矩阵形式可化简为 bellman 公式 $v = r + γ P v$ ，通过方程求解 return $v$

State value

Definition

State value function 概念非常重要，是强化学习中策略的评估标准，以下逐步引出 state value 的公式表达

考虑单步过程: $S_{t} A_{t} R_{t + 1}, S_{t + 1}$

$t, t + 1$ : 离散时间
$S_{t}$ : 在 $t$ 时刻的状态
$A_{t}$ : 在 $S_{t}$ 状态时采取的行动
$R_{t + 1}$ : 采取 $A_{t}$ 行动后获得的奖励
$S_{t + 1}$ : 采取 $A_{t}$ 行动后转移的状态

其中，大写字母 $S_{t}, A_{t}, R_{t + 1}$ 是随机变量，且单步过程中取决于概率分布：

$S_{t} \to A_{t}$ 由策略 $π (A_{t} = a ∣ S_{t} = s)$ 决定（采取行动又策略决定）
$S_{t}, A_{t} \to R_{t + 1}$ 由奖励概率 $p (R_{t + 1} = r ∣ S_{t} = s, A_{t} = a)$ 决定（获得奖励由奖励分布决定）
$S_{t}, A_{t} \to S_{t + 1}$ 由转移概率 $p (S_{t + 1} = s^{'} ∣ S_{t} = s, A_{t} = a)$ 决定（状态转移由转移概率决定）

考虑多步轨迹 trajectory: $S_{t} A_{t} R_{t + 1}, S_{t + 1} A_{t + 1} R_{t + 2}, S_{t + 2} A_{t + 2} R_{t + 3}, ...$

Discount return 是 $G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + ...$

$γ \in [0, 1)$ 是折扣率。
$G_{t}$ 同样是一个随机变量，因为 $R_{t + 1}, R_{t + 2}, ...$ 是随机变量。

状态价值函数

其中 $G_{t}$ 的期望被定义为 state-value-function

v_{π} = E (G_{t} ∣ S_{t} = s)

Remarks:

这是状态 $s$ 的函数，是从状态 $s$ 开始的条件下的条件 return 期望
该函数基于策略 $π$ ，不同策略 → 不同的轨迹 → 不同的 return → 会有不同的 state value
该函数表示状态 $s$ 下的价值，价值函数越大，则该策略越好，因为能得到更多的累计奖励
Return 和 state value 有什么区别？
- Return 是对单个 trajectory 计算的
- 而一般状态下，一个状态出发可能会有多个 trajectory ，求他们的期望 return
- 但如果策略是确定性的，那么 return 与 state value 是一致的
- 回到标题 Return 的简单例子，每种策略下只有一条 trajectory，因此 return 就是 state value，可以比较 state value 的大小来选择策略

State value 计算

State value 的计算工具：bellman 公式

从 return 一般计算方法可知，bellman 公式描述了状态之间的联系

考虑 trajectory： $S_{t} A_{t} R_{t + 1}, S_{t + 1} A_{t + 1} R_{t + 2}, S_{t + 2} A_{t + 2} R_{t + 3}, ...$

则 return 利用 boostrap 化简：

G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + ... = R_{t + 1} + γ (R_{t + 1} + γ R_{t + 3} + ...) = R_{t + 1} + γ G_{t + 1}

根据 state value 定义，利用上述技巧可化简：

v_{π} = E (G_{t} ∣ S_{t} = s) = E (R_{t + 1} + γ G_{t + 1} ∣ S_{t} = s) = E (R_{t + 1} ∣ S_{t} = s) + γ E (G_{t + 1} ∣ S_{t} = s)

首先计算 state value 的第一项（实际上是 rewward的期望），使用两次全概率公式：

E [R_{t + 1} ∣ S_{t} = s] = a \sum π (a ∣ s) E [R_{t + 1} ∣ S_{t} = s, A_{t} = a] = a \sum π (a ∣ s) r \sum p (r ∣ s, a) r

然后计算 state value 的第二项（实际上是未来 reward的期望），同样多次使用全概率公式

E [G_{t + 1} ∣ S_{t} = s] = s^{'} \sum E [G_{t + 1} ∣ S_{t} = s, S_{t + 1} = s^{'}] p (s^{'} ∣ s) (t + 1 时刻有不同的状态转移) = s^{'} \sum E [G_{t + 1} ∣ S_{t + 1} = s^{'}] p (s^{'} ∣ s) (M a r k o v 的无记忆性) = s^{'} \sum v_{π} (s^{'}) p (s^{'} ∣ s) = s^{'} \sum v_{π} (s^{'}) a \sum p (s^{'} ∣ s, a) π (a ∣ s) (s 状态到 s^{'} 状态有不同的行动) = a \sum π (a ∣ s) s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'}) (写成未来 s t a t e v a l u e 的期望)

通过上述两项的计算，state value 计算式为：

v_{π} (s) = E (R_{t + 1} ∣ S_{t} = s) + γ E (G_{t + 1} ∣ S_{t} = s) = a \sum π (a ∣ s) r \sum p (r ∣ s, a) r + γ a \sum π (a ∣ s) s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'}) = a \sum π (a ∣ s) [r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})] \forall s \in S

highlights

上述方程就是传说中的 Bellman 方程，描述了不同状态下的 state value函数的关系

该方程包含了两部分：当前 reward 的期望和未来 reward 的期望

对所有状态下都存在该等式关系

$v_{π} (s)$ 和 $v_{π}^{'} (s)$ 是能够计算的 state value，但他们依赖于各种概率分布

给定策略 $π (a ∣ s)$ 情况下，求方程解的过程被称为策略评估（方程解 $v_{π} (s)$ 能评价策略的好坏）

奖励概率分布 $p (r ∣ s, a)$ 和转移概率 $p (s^{'} ∣ s, a)$ 表示动态模型，一般是知道的(不知道也可以)

State value 计算例子

Example 1

给出如下环境、状态集合 $S$ 、确定性策略 $π$ ，其中行动分为上 ( $a_{1}$ )、右 ( $a_{2}$ )、下 ( $a_{3}$ )、左 ( $a_{4}$ )、不动 ( $a_{5}$ )

根据 Bellman 公式一般表达式，求解该环境下策略 $π$ 的 state value 值 $v_{π} (s)$ 、 $v_{π} (s^{'})$ ，需要知道 $π (a ∣ s) 、 p (r ∣ s, a) 、 p (s^{'} ∣ s, a)$

v_{π} (s) = a \sum π (a ∣ s) [r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})] \forall s \in S

首先考虑在 $s_{1}$ 状态下的 state value 值 $v_{π} (s_{1})$

策略 $π (a = a_{3} ∣ s) = 1 an d π (a \neq = a_{3} ∣ s) = 0$
奖励概率分布 $p (r = 0∣ s, a) = 1 an d p (r \neq = 0∣ s, a) = 0$
状态转移概率 $p (s = s_{3} ∣ s_{1}, a_{3}) = 1 an d p (s \neq = s_{3} ∣ s_{1}, a_{3}) = 0$

因此 $s_{1}$ 状态下 Bellman 公式化简为 $v_{π} (s_{1}) = 0 + v_{π} (s_{3})$ ，（本质上等于即时奖励+未来的 statevalue）

同理得到其他状态下的 Bellman 公式

v_{π} (s_{1}) = 0 + γ v_{π} (s_{3}), v_{π} (s_{2}) = 1 + γ v_{π} (s_{4}), v_{π} (s_{3}) = 1 + γ v_{π} (s_{4}), v_{π} (s_{4}) = 1 + γ v_{π} (s_{4}) .

求解所有状态构成的 bellman 方程组，若 $γ = 0.9$ 则：

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = \frac{γ}{1 - γ} = \frac{0.9}{1 - 0.9} = 9, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10.

可以观察到不同状态的 state value， $s_{1}$ 是最小的，因为离目标最远，而其他状态距离目标最近

Example 2

现在策略改变了，在 $s_{1}$ 处是随机方向。

同上计算相似,，只在状态 $s_{1}$ 不同

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = 0.5 [0 + γ v_{π} (s_{3})] + 0.5 [- 1 + γ v_{π} (s_{2})]], = 1 + γ v_{π} (s_{4}), = 1 + γ v_{π} (s_{4}), = 1 + γ v_{π} (s_{4}) .

同理解方程组：

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = - 0.5 + \frac{γ}{1 - γ} = \frac{0.9}{1 - 0.9} - 0.5 = 8.5, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10.

state value 的作用

比较 example 1 与 example 2 两种策略可知

在 $s_{1}$ 下， $v_{π_{1}} (s_{1}) > v_{π_{2}} (s_{1})$ ，显然第一种策略更好。

Bellman equation

Bellman 公式的矩阵形式

因为每一个状态都会存在一个 Bellman 公式，因此具有矩阵形式。，Bellman 公式如下：

v_{π} (s) = a \sum π (a ∣ s) [r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})] \forall s \in S

将 Bellman 公式使用符号简化，得到：

v_{π} (s) = r_{π} (s) + γ s^{'} \sum p_{π} (s^{'} ∣ s) v_{π} (s^{'}) \forall s \in S

其中

r_{π} (s) ≜ a \sum π (a ∣ s) r \sum p (r ∣ s, a) r, p_{π} (s^{'} ∣ s) ≜ a \sum π (a ∣ s) p (s^{'} ∣ s, a)

因此若状态表示为 $s_{i} (i = 1, ..., n)$ ，则对于状态 $s_{i}$ 的 Bellman 方程为

v_{π} (s_{i}) = r_{π} (s_{i}) + γ s_{j} \sum p_{π} (s_{j} ∣ s_{i}) v_{π} (s_{j})

将所有状态的 Bellman 方程写在一起，并重写称矩阵形式如下：

v_{π} = r_{π} + γ P_{π} v_{π}

其中

$v_{π} = [v_{π} (s_{1}), ..., v_{π} (s_{n})]^{T} \in R^{n}$
$r_{π} = [r_{π} (s_{1}), ..., r_{π} (s_{n})]^{T} \in R^{n}$
$[P_{π}]_{ij} = p_{π} (s_{j} ∣ s_{i})$ ，则 $P_{π} \in R^{n \times n}$ 是转移概率矩阵

Bellman 公式的矩阵形式例子

Example 1

若环境中只有四个状态，则 Bellman 公式的一般矩阵形式如下：

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = r_{π} (s_{1}) r_{π} (s_{2}) r_{π} (s_{3}) r_{π} (s_{4}) + γ p_{π} (s_{1} ∣ s_{1}) p_{π} (s_{1} ∣ s_{2}) p_{π} (s_{1} ∣ s_{3}) p_{π} (s_{1} ∣ s_{4}) p_{π} (s_{2} ∣ s_{1}) p_{π} (s_{2} ∣ s_{2}) p_{π} (s_{2} ∣ s_{3}) p_{π} (s_{2} ∣ s_{4}) p_{π} (s_{3} ∣ s_{1}) p_{π} (s_{3} ∣ s_{2}) p_{π} (s_{3} ∣ s_{3}) p_{π} (s_{3} ∣ s_{4}) p_{π} (s_{4} ∣ s_{1}) p_{π} (s_{4} ∣ s_{2}) p_{π} (s_{4} ∣ s_{3}) p_{π} (s_{4} ∣ s_{4}) v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) .

Example 2

若四个状态的环境中，给出如下策略：

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = 0111 + γ 0000000010000111 v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) .

Example 3

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = 0.5 (0) + 0.5 (- 1) 0.5 + 1 (- 1) 11 + γ 0000 0.5 000 0.5 000 0111 v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) .

Bellman 公式的求解

解析解

v_{π} v_{π} = r_{π} + γ P_{π} v_{π} = (I - γ P_{π})^{- 1} r_{π}

数值求解

迭代算法如下：

v_{k} = r_{π} + γ P_{π} v_{k + 1}

算法中会产生一组序列 ${v_{0}, v_{1}, v_{2}, ...}$ ，并有数值分析中的收敛结论：

v_{k} \to v_{π} = (I - γ P_{π})^{- 1} r_{π}, k \to \infty

Action value

Definition

定义如下，表示在给定 state 和 action 下可以看出哪些 action 更好

q_{π} (s, a) = E [G_{t} ∣ S_{t} = s, A_{t} = a]

State value 与 action value 关系 1：从定义和全概率公式推 state value 具体表达

E [G_{t} ∣ S_{t} = s] v_{π} (s) = a \sum E [G_{t} ∣ S_{t} = s, A_{t} = a] π (a ∣ s) = a \sum π (a ∣ s) q_{π} (s, a) (a c t i o n v a l u e 的平均)

State value 与 action value 关系 2：从 Bellman 公式出发反推 action value 具体表达

v_{π} (s) q_{π} (s, a) = a \sum π (a ∣ s) [r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})] = r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v_{π} (s^{'})

Action value 计算例子

Example

给定收益 $p (r ∣ s, a)$ 、转移概率 $p (s^{'} ∣ s, a)$ 则在 $s_{1}$ 处的

收益是 $p (r = - 1∣ s_{1}, a_{2}) = 1 an d p (r \neq = - 1∣ s_{1}, a_{2}) = 0$
状态转移是 $p (s = s_{2} ∣ s_{1}, a_{2}) = 1 an d p (s \neq = s_{2} ∣ s_{1}, a_{2}) = 0$

则由关系 2 计算在 $s_{2}$ 状态下的 action value

q_{π} (s_{1}, a_{2}) = - 1 + γ v_{π} (s_{2})

注意

虽然这里是确定性的策略，但不代表该策略是最优的策略，因此 $q_{π} (s_{1}, a_{1})$ 、 $q_{π} (s_{1}, a_{3})$ 、 $q_{π} (s_{1}, a_{4})$ 、 $q_{π} (s_{1}, a_{5})$ 不一定为 0

q_{π} (s_{1}, a_{1}) q_{π} (s_{1}, a_{3}) q_{π} (s_{1}, a_{4}) q_{π} (s_{1}, a_{5}) = - 1 + γ v_{π} (s_{1}) = 0 + γ v_{π} (s_{3}) = - 1 + γ v_{π} (s_{1}) = 0 + γ v_{π} (s_{1})

Summury

State value $v_{π} = E (G_{t} ∣ S_{t} = s)$
Action value $q_{π} (s, a) = E [G_{t} ∣ S_{t} = s, A_{t} = a]$
Bellman equation (elementwise form)
- $v_{π} (s) = \sum_{a} π (a ∣ s) [\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v_{π} (s^{'})] \forall s \in S$
Bellman equation (matrix-vector form)
- $v_{π} = r_{π} + γ P_{π} v_{π}$
How to solve Bellman equation
- Closed-form solution
- Iterative solution

🪴 胡誉骞的博客

Explorer

2.Bellman Equation

Return

Return 的简单例子

return 一般计算方法

State value

Definition

State value 计算

State value 计算例子

Example 1

Example 2

Bellman equation

Bellman 公式的矩阵形式

Bellman 公式的矩阵形式例子

Example 1

Example 2

Example 3

Bellman 公式的求解

解析解

数值求解

Action value

Definition

Action value 计算例子

Example

Summury

Graph View

Table of Contents

Backlinks