2.2 时滞随机系统的LQ问题
由于LQ问题可以看成是微分博弈的一种退化情况——单人微分博弈问题,因此本章首先回顾时滞随机系统的LQ问题,为接下来研究微分博弈问题奠定基础。
2.2.1 随机最大值原理
在这一节中,作为准备知识,我们给出时滞随机系统最优控制问题最大值原理的充分条件和必要条件。
假设时滞控制系统的状态Xt由如下方程给出
其中b:[0,T]×Rn×Rn×Rk×Rk→Rn,σ:[0,T]×Rn×Rn×Rk×Rk→Rn×d为给定函数;vt是取值于U的Ft-可测的随机控制,为非空凸集;τ>0为给定的有限的时间延迟;ξ为X的初始轨道;η为v的初始轨道,为给定的由[-τ,0]到U的确定性连续函数,满足。
相应的指标泛函为
其中L:[0,T]×Rn×Rk×Rk→R,Φ:R
n→R为给定的函数。称v(·)是容许控制,如果方程(2.1)存在唯一强解并且
记v(·)的容许控制集合为Uad。那么随机最优控制问题就是寻找最优控制u(·)∈Uad,使得
定义如下的哈密尔顿函数H:[0,T]×Rn×Rn×Rk×Rk×L2F(0,T+τ;Rn)×L2F(0,T+τ;Rn×d)→R:
H(t,Xt,Xt-τ,vt,vt-τ,yt,zt)
=〈yt,b(t,Xt,Xt-τ,vt,vt-τ)〉+〈zt,σ(t,Xt,Xt-τ,vt,vt-τ)〉+L(t,Xt,Xt-τ,vt,vt-τ).
伴随方程定义如下:
其中l关于Xt,Xt-τ,vt,vt-τ的偏导数分别记为lx,,lv,,这里l=b,σ,L,Φ;表示在t取t+τ时的值,也是同样的。
另外我们假设:
(A.2.1)b,σ,L,Φ关于Xt,Xt-τ,vt,vt-τ是连续可微的,且它们的偏导数都有界。
Chen和Wu给出了时滞随机系统最优控制问题最大值原理的必要条件[44]。
引理2.1 令u(·)为时滞随机最优控制问题(2.1)至(2.3)的最优解,X(·)为其相应的最优轨道,则我们有如下结论:
其中Huφ=Hφ(t,Xt,Xt-τ,ut,ut-τ,yt,zt),φ=v,vτ,0≤t≤T。
注2.1 最大值条件(2.5)意味着
进一步,当H具有某些凹性时可以得到时滞随机最优控制问题的充分性条件。此时需要以下假设条件:
(A.2.2)对∀t∈[0,T]及给定的yt,zt,H(t,·,·,·,·,yt,zt)和Φ(·)关于各自的变量都是凹的。
则可以得到最优控制的充分条件:
引理2.2 假设u(·)∈Uad,X(·)为其相应的轨道,yt和zt为伴随方程(2.4)的解。如果(A.2.1)和(A.2.2)及(2.5)或(2.6)对u(·)成立,则u(·)即为时滞随机最优控制问题(2.1)至(2.3)的最优控制。
2.2.2 状态时滞的系统
考虑如下线性随机受控系统
其中φ∈C([-τ,0];Rn)为确定性函数,满足;wt为一维标准布朗运动,vt,t∈[0,T]为Ft-适应平方可积的取值于的过程;τ>0为给定的有限的时间延迟;At,Ãt,Bt,Ct,Dt为具有适当维数的Ft-适应的矩阵值有界过程。
性能指标取经典的线性二次型:
其中G为FT-可测非负有界对称矩阵,Qt为Ft-适应的非负有界矩阵值过程,Rt为Ft-适应的正的有界矩阵值过程且R-1t也有界。
我们的问题是寻找容许控制u(·)使得
对于如上的时滞LQ最优控制问题,借助于最大值原理可以给出最优控制的显式表达。
定理2.1 控制策略
为时滞LQ最优控制问题(2.7)和(2.8)的最优解,其中(Pt,Λt)为如下推广的随机Riccati方程的解
证明:利用最大值原理证明。定义哈密尔顿函数H:[0,T]×Rn×Rn×Rm×Rn×Rn→R:
根据最大值原理,可得
其中伴随过程(yt,zt)是下述方程的解
由式(2.11)得最优控制
于是得到下述随机哈密尔顿系统
该哈密尔顿系统是一类推广的正倒向随机微分方程,它以Itô随机时滞方程作为它的正向方程,以超前倒向随机微分方程作为倒向方程,其解是一个三元组过程(xt,yt,zt)。
参照文献[96],假设存在一个矩阵值过程Pt,使得
其中Pt具有如下随机微分形式
dPt=Γtdt+Λtdwt.
对yt=Ptxt应用Itô公式,得
比较式(2.16)中扩散项的系数,得
将式(2.15)和(2.17)代入式(2.11),得
将式(2.15)和(2.17)代入式(2.14),得
将ut=(Rt+DΤtPtDt)-1(BΤtPt+DΤtPtCt+DΤtΛt)xt代回上式,从而有
上式两边同时消去xt即得Riccati方程(2.10),证毕。□
注2.2 对推广的Riccati方程(2.10),其可解性问题可参见参考文献[96]中的Theorem4.1和Theorem4.6。
2.2.3 控制时滞的系统
此时我们考虑的线性随机受控系统为:
仍然考虑在线性二次指标(2.8)下的最优控制问题,为叙述方便,将式(2.8)复制为
假设所有的系数矩阵都是确定性的且G为确定性矩阵。
引入如下的伴随方程
为了得到最优控制的反馈形式,我们还需要如下推广的n×n矩阵值Riccati方程
则我们有如下结果:
定理2.2 假设存在矩阵(Pt,Kt),t∈[0,T],满足推广的矩阵值Riccati方程(2.22),则时滞线性系统二次最优控制问题(2.19)和(2.20)的最优控制为
证明:定义哈密尔顿函数H:[0,T]×Rn×Rn×Rm×Rn×Rn→R:
根据最大值原理,可得最优控制
其中(yt+τ,zt+τ)由伴随方程(2.21)确定。
令yt=Ptxt,zt=Ktxt,其中的(Pt,Kt)为Riccati方程(2.22)的解。对yt应用Itô公式,得
这意味着(2.19)和(2.20)的解满足yt=Ptxt,zt=Ktxt,因此最优控制u(·)满足式(2.22),证毕。□