本發(fā)明涉及機(jī)器人,尤其涉及一種機(jī)器人操作學(xué)習(xí)方法、裝置、設(shè)備和介質(zhì)。、當(dāng)前,機(jī)器人操作技能學(xué)習(xí)主要依賴兩類技術(shù)路線:一是模仿學(xué)習(xí)(如行為克隆、dagger等),通過監(jiān)督學(xué)習(xí)擬合人類示范軌跡;二是強(qiáng)化學(xué)習(xí),借助環(huán)境獎(jiǎng)勵(lì)信號(hào)實(shí)現(xiàn)自主策略優(yōu)化。、但是,前者部署快但易受示范質(zhì)量制約,難以應(yīng)對(duì)狀態(tài)偏...