微分对策

研究两个或多个决策人的控制作用同时施加于一个由微分方程描述的运动系统时实现各自最优目标的对策过程的理论。微分对策的最优策略所应满足的必要条件,可象最优控制理论中的极大值原理那样导出。微分对策实质上是一种双(多)方的最优控制问题,而通常的最优控制问题可看成是单人微分对策。微分对策还可推广到由差分方程描述的离散时间动态系统,因而常常更广义地称为动态对策。微分对策的研究始于20世纪40年代。R.艾萨克斯在1965年对完全对抗的二人零和对策问题的研究,奠定了微分对策理论的基础。微分对策已应用于军事、公安、工业控制、航天航空、环境保护、海洋捕捞、经济管理和市场竞争等方面。微分对策所提供的数学模型还可能应用于更多的方面。例如,在微分对策中,应用突变论的概念可导致对不连续性和奇异性进行分类研究。此外,还可探讨当约束条件、控制策略或合作关系处于模糊情况时(见模糊控制)的微分对策问题。在对策问题中,决策人都以对方的行为模型作为自己决策的依据,因此微分对策的研究与心理学、人工智能、行为科学等学科都有密切的关系。

构成要素和分类

构成各类微分对策的要素可归结为:

(1)参与对策的各方(决策人)具有不同的利益。

(2)决策人根据自己拥有的信息作决策。

(3)按照对策规则,决策人的地位可能不同。

(4)对策的结局由诸决策人的控制作用共同决定。对应这些要素的不同情况,可将微分对策作各种形式的分类。按照对策人的数目分类,如n人微分对策,n可取为2、3、…。按照结局分类,如结局的得失在连续范围内变化的问题称定量(程度)微分对策,结局取“赢”或“输”二者居一的问题称定性(种类)微分对策。也可按照决策人利益的性质分类,如决策人的利益为对抗时称零和微分对策(即各方得失总和为零),决策人有竞争又有合作时称非零和微分对策(如上下级之间,共同垄断同一市场的几个公司之间)。按照决策人间合作程度,又有组队最优、纳什平衡帕雷托最优和协商策略等多种形式。在上下级多人决策问题中,通常要求上级决策人先宣布自己的策略,下级按照自身利益作出响应。这种策略如能使下级的行动符合上级的目标,这类微分对策便称为上下级对策(斯塔克尔贝格对策)或激励对策。此外,依对策问题中动态系统类型,还有偏微分对策(动态系统用偏微分方程描述)和随机微分对策(存在随机的干扰或观测误差的微分对策)。在微分对策中,决策人拥有信息的多寡,对决策的自由度和结局的优劣有明显的影响。定量地分析这些影响,并对用于信息采集和传输(或破坏对方的采集与传输)的费用与可能取得的收益进行权衡的问题,称为信息分配和信息结构问题。

二人零和微分对策

这是研究最多和应用较广的一种微分对策,其动态过程可用以下状态方程(见状态空间法)描述:

式中各个变量的含义可用追躲问题为例来说明。状态变量 x及其导数凧 表示追方和躲方间的相对位置和相对速度等;u为追方的控制作用,v为躲方的控制作用,它们共同决定x的变化;t表示时间。再用性能指标

描写追击的总效果,它可能是脱靶量、命中时间等。式中T是对策终止时间,它由反映结局(例如击中)的条件Ψ[x(T)]=0来确定。二人零和微分对策问题的求解,按提法的不同有两种情况。

(1)在定量微分对策的提法中,追方选择u使J尽量小,而躲方选择v使J尽量大,因此问题的解u*v*应满足

J(u*,v)≤J(u*,v*)≤J(u,v*)

这样的(u*,v*)称为鞍点策略。在一定条件下,最优控制理论中的极大值原理可推广应用于这类问题。这种“双方极值原理”指出了鞍点策略应满足的必要条件:

式中u*(t),v*(t)对于一切t∈[t0,T]均满足以上条件,分别表示对v取极大值与对u取极小值,而哈密顿函数规定为

其中λi(t)为协态变量,它满足伴随方程

和边界条件

这里μ 为正值常数乘子。各式中的x(t)是与鞍点策略(u*,v*)相对应的最优轨线。在应用双方极值原理来解决具体的微分对策问题时,除了最优控制理论中所遇到的共同性难点(如解两点边值问题)以外,还会由于min和max运算而引入许多间断性、奇异曲面等问题。奇异曲面的研究非常重要,它关系到问题的求解是否完整。在微分对策中可以出现一些具有新性质的奇异曲面,它们比单方最优控制问题中的奇异曲面要复杂得多。对于奇异曲面,尚未建立起系统的理论和计算方法。

(2)在定性微分对策的提法中,只考虑某种结局能否实现的问题(如击中或捕获),可用x(t)能否达到目标集Ψ(x)≤0来描述。追方选择u(t)力图实现此目标,而躲方选择v(t)力图避免此目标。若双方控制能力具有一定均势,则x处于某一区域内时可以捕获而在另一区域时能够逃逸。这两个区域称为捕获区和逃逸区,它们的分界面称为界栅(或壁垒)。微分对策为追逃问题提供了在竞争环境中较为深刻实用的数学模型。在空空导弹的设计中,最优控制和微分对策都被应用于制导规律的研究。微分对策对目标加速度估值误差不敏感,比最优控制更适用于设计拦截机动目标的导弹。

参考书目
  1. R.Isaacs,Differential Games,Wiley,New York,1965.
  2. T.Basar and G.J.Olsder, Dynamic Non-cooperative Game Theory, Academic Press, New York, 1982.