Optimal Policy and Bellman Optimality Equation

本节内容

核心目标：最优 state value 与最优策略

基础工具：Bellman 最优方程

Motivating examples

回顾 state value 和 action value 的例子

根据上述确定的策略、状态转移、奖励分布，由如下 Bellman 公式

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = - 1 + γ v_{π} (s_{2}), = 1 + γ v_{π} (s_{4}), = 1 + γ v_{π} (s_{4}), = 1 + γ v_{π} (s_{4}) .

取 $γ = 0.9$ 则求解 Bellman 方程解如下：结果表示越靠近目标state value 越大

v_{π} (s_{1}) v_{π} (s_{2}) v_{π} (s_{3}) v_{π} (s_{4}) = - 1 + \frac{γ}{1 - γ} = \frac{0.9}{1 - 0.9} - 1 = 8, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10, = \frac{1}{1 - γ} = \frac{1}{1 - 0.9} = 10.

得到每个状态下的state value 后计算action value

q_{π} (s_{1}, a_{1}) q_{π} (s_{1}, a_{2}) q_{π} (s_{1}, a_{3}) q_{π} (s_{1}, a_{4}) q_{π} (s_{1}, a_{5}) = - 1 + γ v_{π} (s_{1}) = 6.2 = - 1 + γ v_{π} (s_{2}) = 8 = 0 + γ v_{π} (s_{3}) = 9 = - 1 + γ v_{π} (s_{1}) = 6.2 = 0 + γ v_{π} (s_{1}) = 7.2

发现问题：这个例子在 $s_{1}$ 时的策略 $π (a ∣ s_{1})$ 是不太好的，因为右走是禁止区域。应该如何优化策略？

π (a ∣ s_{1}) = {10 a = a_{2} a \neq = a_{2}

解决：假如选择最大的action value，那么就可以产生一个新的决策：

π_{new} (a ∣ s_{1}) = {10 a = a^{*} a \neq = a^{*}

其中 $a^{*} = ar g max_{a} q_{π} (s_{1}, a) = a_{3} .$

为什么这能够优化策略？

虽然action value 能够用来评估action 的好坏，但上述的优化是基于其他状态已经是最优策略的情况下进行的。如果其他状态下的策略是随机的或者不是最优的呢？数学上可以保证只要重复迭代，（每个状态都选择action value 最大的action，然后新的action 构成新策略，利用这个策略再迭代得到新策略）一定会得到最优策略

Definition of optimal policy

State value 能够衡量策略的好坏，因为Bellman 方程是对 action value 的平均，如果策略使得平均行动都价值高，则该策略是好的： $i f v_{π_{1}} (s) \geq v_{π_{2}} (s) f or a ll s \in S, t h e n π_{1} i s b e tt er t han π_{2}$

定义

一个决策 $π^{*}$ 是最优的，如果 $v_{π^{*}} (s) \geq v_{π} (s) f or a ll s \in S an d f or an y o t h er p o l i cy π$

提出定义后，就会自然产生问题：

最优策略存在？
最优策略唯一？
最优策略随机还是确定？
如何得到最优策略？

Bellman Optimality Equation

1.BOE:introduction

由策略好坏的定义，Bellman 方程中应该取使得 state value 最大的决策 $π$

Element form

v (s) = π max a \sum π (a ∣ s) (r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S

Matrix form 以简洁的方式刻画了最优策略和最优 state value

v w h ere [r_{π}]_{s} ≜ a \sum π (a ∣ s) r \sum p (r ∣ s, a) r = π max (r_{π} + γ P_{π} v), [P_{π}]_{s, s^{'}} = p_{π} (s^{'} ∣ s) ≜ a \sum π (a ∣ s) p (s^{'} ∣ s, a)

问题：求解算法、存在性、唯一性、与最优策略有什么关系

2.BOE: Maximization on the right-hard side

BOE 存在未知量 $v$ ，存在需要最大化的策略 $π$ ，因此可看成一个式子两个未知量

v (s) = π max a \sum π (a ∣ s) (r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S

example 1 (如何求解一个方程中的两个未知变量)

考虑有未知变量为 $x, a$ 的方程 $x = max_{a} (2 x - 1 - a^{2})$

先对右侧求解 $max_{a} (2 x - 1 - a^{2}) = 2 x - 1$ ，此时 $a = 0$

方程变为 $x = 2 x - 1$ ，进而求解的 $x = 1$

因此方程解为 $a = 0, x = 1$

可以先给定一个初值 $v (s^{'})$ ，则公式可化简，因此可有上述顺序求解方程，（后面又数学证明保证迭代收敛性）

v (s) = π max a \sum π (a ∣ s) (r \sum p (r ∣ s, a) r + γ s^{'} \sum p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S = π max a \sum π (a ∣ s) q (s, a) = π max [π (a_{1} ∣ s) q (s, a_{1}) +, ..., + π (a_{n} ∣ s) q (s, a_{n})]

example 2 (如何求解 $max_{π} \sum_{a} π (a ∣ s) q (s, a)$ )

考虑给定 $q_{1}, q_{2}, q_{3}$ 的情况下求解 $ma x_{c_{1}, c_{2}, c_{3}} c_{1} q_{1} + c_{2} q_{2} + c_{3} q_{3}$ ，其中 $c_{1} + c_{2} + c_{3} = 1$ , 且 $c_{1}, c_{2}, c_{3} > 0$ ，假设 $q_{3} > q_{1}, q_{2}$

因为 $c_{1} q_{1} + c_{2} q_{2} + c_{3} q_{3} \leq (c_{1} + c_{2} + c_{3}) q_{3} = q_{3}$

则最优解为 $c_{3}^{*} = 1, c_{1}^{*} = c_{2}^{*} = 0$

由 example 2 可知

π max a \sum π (a ∣ s) q (s, a) = a \in A (s) max q (s, a)

则最优策略为

π (a ∣ s) = {10 a = a^{*} a \neq = a^{*}, w h ere a^{*} = ar g a max q (s, a)

3.BOE: Rewrite as $v = f (v)$

由于 BOE 方程时 $v$ 的函数，可以写成下式矩阵形式。

v = π max (r_{π} + γ P_{π} v) := f (v)

其中 $f (v)$ 的元素为：

[f (v)]_{s} = π max a \sum π (a ∣ s) q (s, a)

4.Contraction mapping theorem

相关概念

不动点：若 $f (x) = x$ ，则称 $x \in X$ 是 $f : X \to X$ 的不动点

压缩映射：若 $∣∣ f (x_{1}) - f (x_{2}) ∣∣ \leq γ ∣∣ x_{1} - x_{2} ∣∣$ ， $γ \in (0, 1)$ 则称 $f$ 是一个压缩映射

$γ$ 必须严格小于 1，因此 $γ^{k} \to 0$ 被 $k \to 0$ 控制

$∣∣.∣∣$ 为向量范数

相关概念的相关例子

$x = f (x) = 0.5 x$ 易得：

$x = 0$ 为 $f$ 的不动点

$∣∣0.5 x_{1} - 0.5 x_{2} ∣∣ = 0.5∣∣ x_{1} - x_{2} ∣∣ \leq γ ∣∣ x_{1} - x_{2} ∣∣, γ \in [0.5, 1)$ ，故 $f$ 为压缩映射

$x = f (x) = A x$ 矩阵形式时, $∣∣ A ∣∣ \leq γ < 1$

$x = 0$ 仍然是不动点

$∣∣ A x_{1} - A x_{2} ∣∣ \leq ∣∣ A ∣∣.∣∣ x_{1} - x_{2} ∣∣ \leq γ ∣∣ x_{1} - x_{2} ∣∣$ ， $f$ 为压缩映射，这倒没推导过

压缩映射定理：

如果 $f = f (x)$ 是压缩映射，则存在唯一不动点，且可通过点序列 ${x_{k}}$ 递归迭式 $x_{k + 1} = f (x_{k})$ 满足 $x_{k} \to x^{*} (x_{k} \to \infty)$

5.BOE:solution

回过来看 Bellman 方程： $v = f (v) = max_{π} (r_{π} + γ P_{π} v)$

可以证明 $f (v)$ 是一个压缩映射！则可以使用压缩映射定理exist unique 的不动点 $v^{*}$ ，且可通过序列 ${v_{k}}$ 和迭代式 $v_{k + 1} = f (v_{k}) = max_{π} (r_{π} + γ P_{π} v_{k})$ 进行求解，给定任意初值 $v_{0}$ 序列 ${v_{k}}$ 会快速收敛到 $v^{*}$ ，收敛速度取决于 $γ$

假设 $v^{*}$ 是 Bellman 方程的解，则 $v^{*} = max_{π} (r_{π} + γ P_{π} v^{*})$

此时的最优策略为 $π^{*} = ar g max_{π} (r_{π} + γ P_{π} v^{*})$

因此得到 Bellman 最优方程(BOE) $v^{*} = r_{π^{*}} + γ P_{π} v^{*}$

BOE 是特殊的 Bellman 方程
$π^{*}$ 是最优策略（为什么？）
其中 $v^{*}$ 是最优策略对应的state value（state value 是所有决策中最大的吗？）

6.BOE:optimality

最优策略具体是怎样？实际上在第 2 节中的求解例子已知

Analyzing optimal policies

最优策略的影响因素有哪些？如下 BOE

策略 $π (a ∣ s)$ 与 $v (s), v (s^{'})$ 的计算结果由红色部分影响：

奖励设计： $r$
系统模型： $p (r ∣ s, a), p (s^{'} ∣ s, a)$
折扣率： $γ$

example 1 参数 $γ$ 的影响

由下图可知(a) 的最优策略是会进入forbiden区域的，但是如果设置更小的 $γ$ ，则(b)会避免进入forbidon 区域。

原因：

考虑 trajectory： $S_{t} A_{t} R_{t + 1}, S_{t + 1} A_{t + 1} R_{t + 2}, S_{t + 2} A_{t + 2} R_{t + 3}, ...$

其 return 计算： $G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + ...$

求 return 的期望，即状态价值： $v_{π} = E (G_{t} ∣ S_{t} = s)$

显然 $γ$ 越大，则越近视，
$γ$ 越小，只看相对大小，相对来说是远处的奖励权重相对的便重要了！
极端的若 $γ = 0$ 如下图，只关注瞬时奖励，极其短视

Example 2 参数 $r$ 的影响

显然瞬时惩罚变得更重后，绕路的 return 会大于走捷径的 return，因此会绕路

若对奖励做线性变换 $r \to a r + b$ 后如何？答案是不会改变，因为策略选择过程中是看相对好坏。数学证明如下，具体在书中：

Example 3 绕路

下图说明绕路的策略会使得 $v$ 更小，即绕路更差、

可能的提问，从 $(0, 1)$ 出发，既然白色区域没有惩罚，为什么绕路会更差？因为：

Policy 1: $re t u r n = 1 + γ 1 + γ^{2} 1 + γ^{2} 1 + .... = 10$

Policy 2: $re t u r n = 0 + γ 0 + γ^{2} 1 + γ^{2} 1 + .... = 8.1$

Summary

Bellman 最优方程的 elementwise form：
- $v (s) = max_{π} \sum_{a} π (a ∣ s) (\sum_{r} p (r ∣ s, a) r + γ \sum_{s^{'}} p (s^{'} ∣ s, a) v (s^{'})), \forall s \in S$
Bellman 最有方程的 matrix form：
- $v = max_{π} (r_{π} + γ P_{π} v)$
通过压缩映射定理，BOE 存在唯一的解（策略不一定唯一）
通过压缩映射定理，可用迭代算法收敛到最优策略和最优的解
BOE 的意义：因为因为该解的 state value 和 policy 都是最优的

🪴 胡誉骞的博客

Explorer

3.Bellman Optimality Equation

Motivating examples

Definition of optimal policy

Bellman Optimality Equation

1.BOE:introduction

2.BOE: Maximization on the right-hard side

3.BOE: Rewrite as $v = f (v)$

4.Contraction mapping theorem

5.BOE:solution

6.BOE:optimality

Analyzing optimal policies

example 1 参数 $γ$ 的影响

Example 2 参数 $r$ 的影响

Example 3 绕路

Summary

Graph View

Table of Contents

Backlinks

🪴 胡誉骞的博客

Explorer

3.Bellman Optimality Equation

Motivating examples

Definition of optimal policy

Bellman Optimality Equation

1.BOE:introduction

2.BOE: Maximization on the right-hard side

3.BOE: Rewrite as v=f(v)

4.Contraction mapping theorem

5.BOE:solution

6.BOE:optimality

Analyzing optimal policies

example 1 参数 γ 的影响

Example 2 参数 r 的影响

Example 3 绕路

Summary

Graph View

Table of Contents

Backlinks

3.BOE: Rewrite as $v = f (v)$

example 1 参数 $γ$ 的影响

Example 2 参数 $r$ 的影响