探索未知:利用内在奖励改善機器人在拥挤空間的导航能力
虽然呆板人技能在不竭前進,但在大眾區域和都會門路等拥堵的空間中导航依然是一個挑战。為了大范围地在智能都會中摆設呆板人,它們必需可以或许平安有用地在這些情况中导航而不造成任何@危%5TmxA%险或侵%3pAKR%害@。為了應玄關門設計,答這一挑战,萨拉戈萨大學和西班牙阿拉贡工程钻研所的钻研职员開辟了一種基于呆板進修的新法子,利用内涵嘉奖,這根基上是人工智能代辦署理在履行與它要完成的使命没有直接瓜葛的举動时得到的嘉奖。
介入這項钻研的钻研职员之一迭戈-马丁内斯-巴塞尔法網直播,加诠释说,自立呆板人导航是一個還没有解决的問题,出格是在非布局化的動态情况中,呆板人必需防止與動态停滞物產生碰撞并达到目標地。固然深度强化進修算法在乐成率和达到方针的时候方面已被证實是乐成的,但仍有改良的空間。
新法子利用内涵嘉奖来鼓動勉励呆板消除痛風石方法,人摸索其情况中的未知區域,并跟着时候的推移更有用地举行导航。钻研职员评估了两種整合内涵嘉奖的法子:第一種法子利用了 脫毛膏推薦,"内涵好奇心模块"(ICM),而第二種法子是基于一系列被称為高效摸索随機编码器(RE3)的算法。
钻研职员在CrowdNav摹拟器长進行了摹拟,發明他們提出的两種整合内涵嘉奖的法子都跨越了之前開辟的用于呆板人在拥堵空間中导航的最先辈法子。這項钻研的成果可以鼓動勉励其他呆板人學家在练習他們的呆板人时利用内涵嘉奖,以提高他們應答不成预感的环境和在高度動态情况中平安挪動的能力。
马丁内斯-巴塞尔加規劃继续改良呆板人导航中的深度强化進修,使其在實際世界的利用中加倍平安和靠娛樂城換現金ptt,得住。钻研职员测试的两個基于内涵嘉奖的模子很快便可以在真實的呆板人中举行整合和测试,以進一步驗证其潜力。
頁:
[1]