斯塔克尔贝格对策_工程技术

[拼音]：Sitake’erbeige duice

[外文]：Stackelberg strategy

对策论中的多级递阶决策问题，又称主从对策，由经济学家 H.von斯塔克尔贝格提出。社会现象的结局通常是由许多决策人的行动共同决定的。而这些决策人分居不同层次，形成所谓多级递阶的决策系统。上层决策人具有一定权威，起着主导作用，有时代表全局的利益。他们对整个系统的控制可以通过操纵一些“杠杆”变量来影响下级的行为而实现。例如，用国家调节利率、税收、投资等决策量来控制各部门各单位的行为而实现全局最优，企业通过分配、奖励等手段来引导职工采取合作行为以提高整体的效益,都属于主从对策。以下标L表示主导者,x_L、z_L、x_L＝γ_L(z_L)和K_L分别表示主导者的决策变量、信息、策略和目标函数。以下标 F表示随从者，随从者的对应量为x_F、z_F、x_F＝γ_L(z_F)和K_F。斯塔克尔贝格决策问题就是上级如何选择并宣布他的策略γ_L,使下级对此γ_L的理性响应最符合上级的需要。在最简单的情况下,上级只能决定并预先宣布一个x_L的值,力图获得最好的结果。这时F根据他的信息z_F＝x_L选择x_F,使K_F最大，即

x_F＝γ_F(x_L)＝K_F(x_L，x_F)

这就是F对x_L的理性响应。由于L掌握关于K的知识,他可预见,由x_L可以获得的最终收益为

K_L＝K_L(x_L，x_F)＝K_L(x_L，γ_F(x_L))

因此 L可通过选择x_L使K_L最大。对主从对策理论的深入研究主要是在70年代以后进行的。主从对策可分为静态和动态两类。

静态主从对策

静态情形下双方都只作一次决策。如L只选一个参数x_L，宣布之后F进行决策并确定x_F,然后双方一起执行。只要L确实说到做到,这种预期的结果就必然出现。因此这种解是稳定的。如果 L采用欺骗手法，例如宣布，由于预计到F的响应将为，而实际上却采取决策以牟取更多利益。结果，由于双方都是“理性人”，都能进行合理的推理和计算，F也能预见到L的做法，他就会在一次性行动时亮出。同样L又预见到这点而采用，然后等等。这种循环猜测过程无限继续下去，如果收敛到极限值(x,x),则满足:)。这实际上就是非合作的纳什平衡解。对L来说这个结局往往不如主从对策好，这说明L的欺骗行为对己也不利,从而也说明主从对策的基本假定是合理的、成立的。在静态主从对策中应用最广泛的是二次对策，即K_L和K_F是决策量的二次函数，而且各约束条件均为线性关系，这时较易于求解。

动态主从对策

动态主从对策的一般模型包含一个状态演化过程：

式中x为状态变量,u和v分别表示主导人和随从人的决策变量,它们对系统品质的影响将通过状态x的变化而起作用。它们的目标函数为

式中[0，T]为进行决策的时间区间。L和F的决策仍然是分别希望使K_L和K_F达到最大。设L已根据掌握的信息选择了一个u^*,将)和之后解出使K_F为最大的v^*(即最优控制问题)，问题归结为如何选择u^*使所解出的 v^*恰好使K_L也达到最大(相对于 u的其他选择而言)。这样得到的u^*和v^*就是动态主从对策的解。动态主从对策的双方可采用的决策形式依他们拥有的信息不同而不同，大致可分为开环策略、无记忆状态反馈策略和有记忆状态反馈的闭环策略。这些决策形式表示决策人利用信息反馈，灵活反应以改进自身地位的可能性。动态主从对策在理论上是个难题，在计算上也十分复杂。但它揭示了各种信息结构对结局的影响（即开环、反馈、闭环解之间的差别），有一定理论意义，同时也有很大的实际应用价值。