多機(jī)器人在網(wǎng)格環(huán)境約束下的運(yùn)動策略
摘要: 針對多智能體在網(wǎng)格環(huán)境下的尋路與避障規(guī)劃問題,提出一種分布式、基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人避障導(dǎo)航方法。該方法基于最近策略優(yōu)化算法(PPO)用于離散決策下的改進(jìn)方法進(jìn)行訓(xùn)練得到的策略模型,該模型通過每個(gè)智能體自身的前序多幀仿真激光雷達(dá)距離信息,生成符合預(yù)設(shè)規(guī)范的動作,實(shí)現(xiàn)多機(jī)器人系統(tǒng)在不同環(huán)境中的尋路避障。該模型在訓(xùn)練過程中通過引入密度獎勵(lì)、距離獎勵(lì)以及步長懲罰,提高了智能體在場... (共11頁)
開通會員,享受整站包年服務(wù)