本發(fā)明涉及一種基于動態(tài)目標(biāo)分配的深度強(qiáng)化學(xué)習(xí)隊(duì)形變換方法及系統(tǒng),方法包括:確定狀態(tài)空間、動作空間以及獎勵(lì)函數(shù);初始化網(wǎng)絡(luò)參數(shù)、經(jīng)驗(yàn)池和訓(xùn)練環(huán)境;判斷訓(xùn)練回合數(shù)是否達(dá)到最大;各飛行器以某一初始編隊(duì)隊(duì)形出發(fā);計(jì)算各飛行器最優(yōu)分配目標(biāo)點(diǎn)探測器探測周圍己方飛行器,根據(jù)障礙錐判斷飛行器是否需要避障或避碰;計(jì)算飛行器需要避障的航向角度,各飛行器選擇動作,并進(jìn)入下一狀態(tài);計(jì)算獎勵(lì)值;將此時(shí)系統(tǒng)狀態(tài)、動作、獎勵(lì)值和下一系統(tǒng)狀態(tài)作為一組元組數(shù)據(jù)存入經(jīng)驗(yàn)池;更新網(wǎng)絡(luò)參數(shù);判斷rs是否為C2+C3,訓(xùn)練結(jié)束,復(fù)雜障礙環(huán)境中隊(duì)形變換完成。本發(fā)明中的上述方法解決了隊(duì)形變換過程中由于目標(biāo)分配隨機(jī)易產(chǎn)生局部最優(yōu)航路問題。
聲明:
“基于動態(tài)目標(biāo)分配的深度強(qiáng)化學(xué)習(xí)隊(duì)形變換方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)