本發(fā)明通過將強化學習中的動作,通過詞向量嵌入的方式,轉化為具有內在聯(lián)系的向量表示,以此作為預測器,并結合給定目標的環(huán)境特征,計算其到達目標狀態(tài)的規(guī)劃路徑,從而將稀疏環(huán)境獎勵轉化為密集獎勵的形式。同時,通過采用規(guī)劃器和執(zhí)行器對抗訓練的方式,一定程度上解決了局部最優(yōu)問題。
聲明:
“強化學習的目標規(guī)劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)