專業(yè)體系完整:從基礎(chǔ)理論到前沿算法,構(gòu)建多智能體分層強化學(xué)習(xí)指揮決策完整知識體系,為想深入智能指揮領(lǐng)域的讀者,提供從原理到實踐的清晰路徑,解決 知識零散難落地 痛點 。
聚焦實際難題:直面智能指揮決策中不確定條件、高維空間等現(xiàn)實挑戰(zhàn),用分層強化學(xué)習(xí)等方法逐個突破,給工程應(yīng)用、軍事指揮等場景從業(yè)者,提供解決復(fù)雜決策問題的 實用工具箱 。
技術(shù)策略前沿:融入多智能體協(xié)同、知識驅(qū)動訓(xùn)練優(yōu)化等創(chuàng)新思路,緊跟強化學(xué)習(xí)發(fā)展趨勢,讓關(guān)注技術(shù)前沿的讀者,接觸到智能指揮決策最新研究方向與實踐方案 。
驗證體系扎實:通過多個附錄的實驗驗證,從集中式到分散式?jīng)Q策,從方法到模型優(yōu)化,用真實數(shù)據(jù)和場景證明有效性,給注重 理論可落地 的讀者,吃下技術(shù)實用性的 定心丸 。
跨領(lǐng)域適配性:既覆蓋智能指揮決策理論,又延伸到多智能體強化學(xué)習(xí)算法、模型訓(xùn)練等技術(shù),適合軍事、人工智能、自動化等多領(lǐng)域讀者,打破 領(lǐng)域壁壘,滿足跨學(xué)科學(xué)習(xí)需求 。
目錄
第 1 章 概述
1.1 本書研究背景及目的
1.1.1 研究背景
1.1.2 研究目的與意義
1.2 智能指揮決策及其技術(shù)發(fā)展現(xiàn)狀
1.2.1 智能指揮決策研究現(xiàn)狀
1.2.2 強化學(xué)習(xí)研究現(xiàn)狀
1.2.3 多智能體研究現(xiàn)狀
1.2.4 智能決策算法研究現(xiàn)狀
1.2.5 發(fā)展現(xiàn)狀評述
1.3 本書整體內(nèi)容框架
1.3.1 主要內(nèi)容
1.3.2 組織結(jié)構(gòu)
第 2 章 智能指揮決策基本理論
2.1 指揮決策
2.1.1 指揮決策基本概念
2.1.2 指揮決策面臨的挑戰(zhàn)
2.2 智能指揮決策
2.2.1 智能指揮決策基本內(nèi)涵
2.2.2 智能指揮決策中的 Agent
2.2.3 智能指揮決策的優(yōu)勢
2.2.4 智能指揮決策面臨的現(xiàn)實問題
第 3 章 基于多智能體指揮決策的技術(shù)策略與總體框架
3.1 智能指揮決策方法選擇
3.1.1 指揮決策建模方法
3.1.2 策略求解表征方法
3.1.3 樣本數(shù)據(jù)獲取方法
3.1.4 多智能體協(xié)同方法
3.2 基于多智能體分層強化學(xué)習(xí)的指揮決策框架
3.2.1 技術(shù)思路
3.2.2 框架設(shè)計
3.2.3 實現(xiàn)過程
3.3 需要解決的技術(shù)問題
3.3.1 不確定條件下的分層序貫決策建模與求解
3.3.2 高維狀態(tài)動作空間下的策略搜索效率問題
3.3.3 大規(guī)模作戰(zhàn)背景下多異構(gòu)實體協(xié)同博弈問題
3.3.4 復(fù)雜策略空間下決策模型訓(xùn)練效率問題
第 4 章 基于多 Agent 的指揮決策模型構(gòu)建與求解
4.1 問題提出及解決思路
4.1.1 問題提出
4.1.2 解決思路
4.2 基于多 Agent 的指揮決策實體建模
4.2.1 基于作戰(zhàn)節(jié)點 Agent 的指揮決策實體抽象
4.2.2 多 Agent 指揮決策實體層級架構(gòu)
4.3 基于 MDP 的指揮決策行為建模
4.3.1 完全信息條件下的指揮決策行為模型構(gòu)建
4.3.2 非完全信息條件下的指揮決策行為模型構(gòu)建
4.3.3 面向分層決策的指揮決策行為模型構(gòu)建
4.4 基于 MARL 的指揮決策求解方法建模
4.4.1 多智能體指揮決策過程建模
4.4.2 多智能體指揮決策目標(biāo)函數(shù)
第 5 章 基于分層表征的多智能體集中式指揮決策
5.1 問題提出及解決思路
5.1.1 問題提出
5.1.2 解決思路
5.2 多智能體集中式指揮決策方法
5.2.1 集中式指揮決策總體策略
5.2.2 基于分層表征的空間消減
5.2.3 基于最大熵的隨機策略梯度求解
5.3 集中式指揮決策算法實現(xiàn)
5.3.1 基于 DSPG-ME 的多智能體強化學(xué)習(xí)
5.3.2 DSPG-ME 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
5.3.3 神經(jīng)網(wǎng)絡(luò)訓(xùn)練
第 6 章 基于信息交互的多智能體分散式指揮決策
6.1 問題提出及解決思路
6.1.1 問題提出
6.1.2 解決思路
6.2 多智能體分散式指揮決策方法
6.2.1 分散式指揮決策總體策略
6.2.2 基于圖注意力網(wǎng)絡(luò)的信息協(xié)同
6.2.3 基于價值函數(shù)分解的策略協(xié)同
6.3 分散式指揮決策算法實現(xiàn)
6.3.1 基于 MAAC-GA 的多智能體強化學(xué)習(xí)
6.3.2 MAAC-GA 網(wǎng)絡(luò)架構(gòu)設(shè)計
6.3.3 神經(jīng)網(wǎng)絡(luò)訓(xùn)練
第 7 章 基于知識驅(qū)動的智能決策模型訓(xùn)練優(yōu)化
7.1 問題提出及解決思路
7.1.1 問題提出
7.1.2 解決思路
7.2 模型優(yōu)化總體策略
7.3 知識導(dǎo)向的獎勵函數(shù)塑形
7.3.1 獎勵函數(shù)塑形基本原理
7.3.2 基于歷史知識統(tǒng)計量的獎勵函數(shù)離線優(yōu)化
7.3.3 基于對抗過程經(jīng)驗的獎勵函數(shù)在線優(yōu)化
7.4 知識重構(gòu)的策略初始優(yōu)化
7.4.1 基于模仿學(xué)習(xí)的策略生成
7.4.2 面向經(jīng)驗知識的模仿學(xué)習(xí)
7.4.3 面向教訓(xùn)知識的模仿學(xué)習(xí)
7.5 虛擬自博弈的聯(lián)盟訓(xùn)練
7.5.1 基于策略集的對手池構(gòu)建
7.5.2 基于虛擬自博弈的對手選擇
7.5.3 基于對手池的聯(lián)盟訓(xùn)練
附錄 A 集中式指揮決策方法驗證
A.1 實驗環(huán)境與參數(shù)設(shè)置
A.1.1 實驗環(huán)境
A.1.2 仿真參數(shù)設(shè)置
A.2 實驗結(jié)果與分析
附錄 B 分散式指揮決策方法驗證
B.1 實驗環(huán)境與參數(shù)設(shè)置
B.1.1 實驗環(huán)境
B.1.2 參數(shù)設(shè)置
B.2 實驗結(jié)果與分析
附錄 C 知識驅(qū)動模型優(yōu)化方法驗證
C.1 實驗環(huán)境與參數(shù)設(shè)置
C.1.1 實驗環(huán)境
C.1.2 參數(shù)設(shè)置
C.2 實驗結(jié)果與分析
附錄 D 知識 學(xué)習(xí) 分層 指揮決策方法驗證
D.1 實驗設(shè)計
D.1.1 合成營山岳叢林遭遇戰(zhàn)斗仿真想定描述
D.1.2 仿真環(huán)境介紹
D.1.3 實驗方案
D.2 智能決策框架與模型實現(xiàn)
D.2.1 戰(zhàn)術(shù)級智能決策仿真驗證框架
D.2.2 戰(zhàn)術(shù)級智能決策模型實現(xiàn)
D.3 效果分析
D.3.1 方法性能對比分析
D.3.2 模型穩(wěn)定性對比分析
D.3.3 學(xué)習(xí)訓(xùn)練效率對比分析
D.4 本章小結(jié)
參考文獻