一種基于強化學習的超啟發(fā)算法的車輛路徑優(yōu)化方法,包括以下步驟:步驟1車輛路徑問題分析;步驟2初始化;步驟3經(jīng)驗池、序列池存儲;步驟4解的接受保留;步驟5判斷經(jīng)驗池容量,容量足夠則進入步驟8學習,未滿,則進入步驟6;步驟6選擇Action;步驟7保留最優(yōu)解;步驟8選擇學習樣本,并初始化神經(jīng)網(wǎng)絡;步驟9神經(jīng)網(wǎng)絡學習更新;步驟10更新目標值網(wǎng)絡;步驟11判斷學習結束情況,學習未結束,則進入步驟8繼續(xù)學習更新;反之,則進入步驟6選擇Action,返回主循環(huán);步驟12程序結束,輸出車輛路徑距離最優(yōu)值及最優(yōu)值路徑序列。本發(fā)明提供了一種高層選擇策略為強化學習的超啟發(fā)算法的車輛路徑優(yōu)化方法。
聲明:
“基于強化學習的超啟發(fā)算法的車輛路徑優(yōu)化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)