您現在的位置: 18luck新利全站下载 >> 企業管理>> 決策管理>> 資料信息

馬爾可夫決策基礎理論教材(PDF 36頁)

所屬分類:
決策管理
文件大小:
461 KB
下載地址:
相關資料:
基礎理論
馬爾可夫決策基礎理論教材(PDF 36頁)內容簡介
2. 解的表示形式
2.1 MDP 基本模型及概念
2.1.1 基本模型
2.1.2 狀態
2.1.3 行動
2.1.4 狀態轉移函數
2.1.5 策略與值函數
2.11 顯示了一個2-狀態POMDP 的例子,其中pk 表示某策略樹。
2.2 MDP 典型算法
2.2.1 反向迭代類算法
2.2.1.1 策略迭代
2.2.1.2 值迭代
2.2.2 前向搜索類算法
2.2.2.1 結合與或圖的搜索
2.2.2.2 實時動態規劃算法
2.3 POMDP 基本模型及概念
2.3.1 基本模型
2.3.2 觀察
2.3.3 信念狀態
2.3.4 主觀貝葉斯更新
2.3.5 策略表示形式
2.3.6 值函數表示形式
2.4 POMDP 典型算法
2.4.1 值迭代算法
2.4.1.1 Witness 算法
2.4.1.2 增量裁剪算法
2.4.1.3 基於點的值迭代算法
2.4.1.4 幾種值迭代算法的比較
2.4.2 搜索類算法
2.5 多智能體係統相關決策模型
2.5.1 DEC-POMDP 模型
2.5.2 POSG 模型及策略表示
2.6 多智能體係統典型決策算法
2.6.1 基於動態規劃求解POSG
2.6.1.1 含隱式狀態的標準型博弈
2.6.1.2 標準型有限視野隨機博弈
2.6.1.3 多智能體動態規劃操作
2.6.2 基於搜索的MAA*算法
2.6.2.1 啟發式搜索
2.6.2.2 啟發式函數設計
2.6.2.3 MAA*算法
2.7 Option 理論
2.7.1 半馬爾可夫決策過程
2.7.2 Option 及相關定義
2.8 小結
..............................

Baidu
map