序贯决策

用于随机性或不确定性动态系统最优化决策方法序贯决策的特点是:

(1)所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;

(2)决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);

(3)系统下一步(或未来)可能出现的状态是随机的或不确定的。序贯决策的过程是:从初始状态开始,每个时刻作出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再作出新的最优决策,反复进行直至最后。系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:

(1)系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。

(2)系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。