本發(fā)明公開了一種基于強化學習的智能體探索未知環(huán)境方法,通過制定局部信息提取規(guī)則,計算環(huán)境參數(shù)特征表示中的局部信息和對環(huán)境參數(shù)特征表示進行預測的預測特征表示中的局部信息之間的差異度,構建了深度強化學習的內(nèi)部獎勵函數(shù),該種方法構建的獎勵函數(shù)能夠賦予智能體感性選擇能力,也就是具備人類在看到一部分環(huán)境特征的時會有感興趣的感受的能力,使得智能體在環(huán)境探索中可以沿著感興趣的環(huán)境特征進行探索,結構化了智能體的環(huán)境探索方式,同時,放大了智能體環(huán)境特征表示局部信息和實際環(huán)境狀況的關聯(lián)程度,使得智能體的行為意圖可預測,有利于在工業(yè)領域對智能體進行把控,推動深度強化學習在工業(yè)領域的落地。
聲明:
“基于強化學習的智能體探索未知環(huán)境方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)