基于強化學(xué)習(xí)的5G NR下行調(diào)度時延優(yōu)化系統(tǒng),是根據(jù)實際場景存在的狀態(tài)非完全可觀測情形,將基站下行調(diào)度過程建模為一個部分可觀測馬爾可夫控制問題,并通過Actor?Critic強化學(xué)習(xí)算法框架來解決。具體包括:網(wǎng)絡(luò)監(jiān)控模塊,用于負責采集下行調(diào)度器的相關(guān)輸入;資源調(diào)度器模塊,用于通過仿真器模擬基站細粒度調(diào)度過程;POMDP構(gòu)建模塊,用于將每個時隙的狀態(tài)處理為部分可觀測狀態(tài),并建立針對不同時間尺度任務(wù)的智能體;核心控制器模塊,用于幫助POMDP構(gòu)建模塊完成針對不同時間尺度任務(wù)的智能體在每個時隙的動作策略制定;場景自適應(yīng)模塊,作為輔助模塊為核心控制器提供更科學(xué)高效的決策,并且通過流量時空預(yù)測來指導(dǎo)算法更好地進行多小區(qū)調(diào)度場景下的負載均衡。
聲明:
“基于強化學(xué)習(xí)的5G NR下行調(diào)度時延優(yōu)化系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)