2.2 时滞随机系统的LQ问题_时滞随机系统的微分博弈理论及应用-QQ阅读女生古言网

时滞随机系统的微分博弈理论及应用

上QQ阅读APP看书，第一时间看更新

上一章目录下一章

2.2 时滞随机系统的LQ问题

由于LQ问题可以看成是微分博弈的一种退化情况——单人微分博弈问题，因此本章首先回顾时滞随机系统的LQ问题，为接下来研究微分博弈问题奠定基础。

2.2.1 随机最大值原理

在这一节中，作为准备知识，我们给出时滞随机系统最优控制问题最大值原理的充分条件和必要条件。

假设时滞控制系统的状态X_t由如下方程给出

其中b：[0，T]×Rⁿ×Rⁿ×R^k×R^k→Rⁿ，σ：[0，T]×Rⁿ×Rⁿ×R^k×R^k→R^n×d为给定函数；v_t是取值于U的F_t-可测的随机控制，为非空凸集；τ＞0为给定的有限的时间延迟；ξ为X的初始轨道；η为v的初始轨道，为给定的由[-τ，0]到U的确定性连续函数，满足。

相应的指标泛函为

其中L：[0，T]×Rⁿ×R^k×R^k→R，Φ：R

ⁿ→R为给定的函数。称v（·）是容许控制，如果方程（2.1）存在唯一强解并且

记v（·）的容许控制集合为U_ad。那么随机最优控制问题就是寻找最优控制u（·）∈U_ad，使得

定义如下的哈密尔顿函数H：[0，T]×Rⁿ×Rⁿ×R^k×R^k×L²_F（0，T+τ；Rⁿ）×L²_F（0，T+τ；R^n×d）→R：

H（t，X_t，X_t-τ，v_t，v_t-τ，y_t，z_t）

=〈y_t，b（t，X_t，X_t-τ，v_t，v_t-τ）〉+〈z_t，σ（t，X_t，X_t-τ，v_t，v_t-τ）〉+L（t，X_t，X_t-τ，v_t，v_t-τ）.

伴随方程定义如下：

其中l关于X_t，X_t-τ，v_t，v_t-τ的偏导数分别记为l_x，，l_v，，这里l=b，σ，L，Φ；表示在t取t+τ时的值，也是同样的。

另外我们假设：

（A.2.1）b，σ，L，Φ关于X_t，X_t-τ，v_t，v_t-τ是连续可微的，且它们的偏导数都有界。

Chen和Wu给出了时滞随机系统最优控制问题最大值原理的必要条件^[44]。

引理2.1 令u（·）为时滞随机最优控制问题（2.1）至（2.3）的最优解，X（·）为其相应的最优轨道，则我们有如下结论：

其中H^u_φ=H_φ（t，X_t，X_t-τ，u_t，u_t-τ，y_t，z_t），φ=v，v_τ，0≤t≤T。

注2.1 最大值条件（2.5）意味着

进一步，当H具有某些凹性时可以得到时滞随机最优控制问题的充分性条件。此时需要以下假设条件：

（A.2.2）对∀t∈[0，T]及给定的y_t，z_t，H（t，·，·，·，·，y_t，z_t）和Φ（·）关于各自的变量都是凹的。

则可以得到最优控制的充分条件：

引理2.2 假设u（·）∈U_ad，X（·）为其相应的轨道，y_t和z_t为伴随方程（2.4）的解。如果（A.2.1）和（A.2.2）及（2.5）或（2.6）对u（·）成立，则u（·）即为时滞随机最优控制问题（2.1）至（2.3）的最优控制。

2.2.2 状态时滞的系统

考虑如下线性随机受控系统

其中φ∈C（[-τ，0]；Rⁿ）为确定性函数，满足；w_t为一维标准布朗运动，v_t，t∈[0，T]为F_t-适应平方可积的取值于的过程；τ＞0为给定的有限的时间延迟；A_t，Ã_t，B_t，C_t，D_t为具有适当维数的F_t-适应的矩阵值有界过程。

性能指标取经典的线性二次型：

其中G为F_T-可测非负有界对称矩阵，Q_t为F_t-适应的非负有界矩阵值过程，R_t为F_t-适应的正的有界矩阵值过程且R^-1_t也有界。

我们的问题是寻找容许控制u（·）使得

对于如上的时滞LQ最优控制问题，借助于最大值原理可以给出最优控制的显式表达。

定理2.1 控制策略

为时滞LQ最优控制问题（2.7）和（2.8）的最优解，其中（P_t，Λ_t）为如下推广的随机Riccati方程的解

证明：利用最大值原理证明。定义哈密尔顿函数H：[0，T]×Rⁿ×Rⁿ×R^m×Rⁿ×Rⁿ→R：

根据最大值原理，可得

其中伴随过程（y_t，z_t）是下述方程的解

由式（2.11）得最优控制

于是得到下述随机哈密尔顿系统

该哈密尔顿系统是一类推广的正倒向随机微分方程，它以Itô随机时滞方程作为它的正向方程，以超前倒向随机微分方程作为倒向方程，其解是一个三元组过程（x_t，y_t，z_t）。

参照文献[96]，假设存在一个矩阵值过程P_t，使得

其中P_t具有如下随机微分形式

dP_t=Γ_tdt+Λ_tdw_t.

对y_t=P_tx_t应用Itô公式，得

比较式（2.16）中扩散项的系数，得

将式（2.15）和（2.17）代入式（2.11），得

将式（2.15）和（2.17）代入式（2.14），得

将u_t=（R_t+D^Τ_tP_tD_t）^-1（B^Τ_tP_t+D^Τ_tP_tC_t+D^Τ_tΛ_t）x_t代回上式，从而有

上式两边同时消去x_t即得Riccati方程（2.10），证毕。□

注2.2 对推广的Riccati方程（2.10），其可解性问题可参见参考文献[96]中的Theorem4.1和Theorem4.6。

2.2.3 控制时滞的系统

此时我们考虑的线性随机受控系统为：

仍然考虑在线性二次指标（2.8）下的最优控制问题，为叙述方便，将式（2.8）复制为

假设所有的系数矩阵都是确定性的且G为确定性矩阵。

引入如下的伴随方程

为了得到最优控制的反馈形式，我们还需要如下推广的n×n矩阵值Riccati方程

则我们有如下结果：

定理2.2 假设存在矩阵（P_t，K_t），t∈[0，T]，满足推广的矩阵值Riccati方程（2.22），则时滞线性系统二次最优控制问题（2.19）和（2.20）的最优控制为

证明：定义哈密尔顿函数H：[0，T]×Rⁿ×Rⁿ×R^m×Rⁿ×Rⁿ→R：

根据最大值原理，可得最优控制

其中（y_t+τ，z_t+τ）由伴随方程（2.21）确定。

令y_t=P_tx_t，z_t=K_tx_t，其中的（P_t，K_t）为Riccati方程（2.22）的解。对y_t应用Itô公式，得

这意味着（2.19）和（2.20）的解满足y_t=P_tx_t，z_t=K_tx_t，因此最优控制u（·）满足式（2.22），证毕。□

上一章目录下一章