分享到:

在概率阈值准则下的马尔可夫策略的两种算法

马尔可夫决策过程(Markov Decision Processes,简称MDP,又称序贯随机最优化、随机最优控制、受控的马尔可夫过程或随机动态规划)是研究随机序贯决策的问题的理论。其主要研究对象是转移结构受控的随机系统,根据系统的状态,决策者(如人类或计算机)选取一个策略来控制或影响系统的转移,从而每个策略可定义一个随机过程和相应于该过程的目标函数值,MDP的目的是选取一个好的控制策略。本文在一种新的准则下讨论决策的最优解的算法问题,在文中我们称之为概率阈值准则。为研究概率阈值最优化的问题,利用马尔可夫策略,采用两种方法求解最优策略。第一种方法是基于增益的过去累积值的方法,我们考虑到第n阶段为止的增益累积值随机变量列,以及它取得的过去值集合列,得到它的总增益,进一步把本来的状态空间X上,将过去值集合附加上去,形成一个扩大的状态空间。在这个新的状态空间上考虑马尔可夫最优策略。第二种方法是基于未来阈值的方法,在马尔可夫阈值概率最优  (本文共35页) 本文目录 | 阅读全文>>

《吉林化工学院学报》2004年02期
吉林化工学院学报

基于未来阈值的马尔可夫策略的最优化算法

在一种新的准则概率阈值准则下讨论马尔可夫决策的最...  (本文共3页) 阅读全文>>

《山东理工大学学报(自然科学版)》2004年01期
山东理工大学学报(自然科学版)

在概率阈值准则下马尔可夫策略的最优化算法

在一种新的概率阈值准则下讨论马尔可夫决策的最...  (本文共4页) 阅读全文>>