快捷搜索:  test  as  1111

谷歌发布非政策强化学习算法OPC的最新研究机器

在谷歌最新的论文中,钻研职员提出了“非政策强化进修”算法OPC,它是强化进修的一种变体,它能够评估哪种机械进修模型将孕育发生最好的结果。数据显示,OPC比基线机械进修算法有着显明的前进,加倍稳健靠得住。

在谷歌AI钻研团队一篇新颁发的论文《经由过程非政策分类进行非政策评估》(Off-PolicyEvaluation via Off-Policy Classification)和博客文章中,他们提出了所称的“非政策分类”,即OPC(off-policy classification)。它能够评估AI的体现,经由过程将评估视为一个分类问题来驱动代理机能。

钻研职员觉得他们的措施是强化进修的一种变体,它使用奖励来推动软件政策实现与图像输入协同事情这个目标,并扩展到包括基于视觉的机械人抓取在内的义务。

“完全离开政策强化进修是一种变体。代理完全从旧数据中进修,对付工程师来说这是很有吸引力的,由于它可以在不必要物理机械人的环境下进行模型迭代。”

Robotics at Google(专注机械学的的谷歌新团队)的软件工程师Alexa Irpan写道,“完全离开政策的RL,可以在先前代理网络的同一固定命据集上练习多个模型,然后选择出最佳的那个模型。”

然则OPC并不像听起来那么轻易,正如Irpan在论文中所描述的,非政策性强化进修可以经由过程机械人进行人工智能模型培训,但不能进行评估。并且在必要评估大年夜量模型的措施中,地面实况评估平日效率太低。

OPC在假设义务状态变更方面险些没有随机性,同时假设代理在实验停止时用“成功或掉败”来办理这个问题。两个假设中第二个假设的二元性子,容许为每个操作分配两个分类标签(“有效”表示成功或“劫难性”表示掉败)。

别的,OPC还依附Q函数(经由过程Q进修算法进修)来预计行径的未来总回报。代理商选择具有最大年夜预期回报的行动,其绩效经由过程所选行动的有效频率来衡量(这取决于Q函数若何精确地将行动分类为有效与劫难性),并以分类准确性作为非政策评估分数。

(左图为基线,右图为建议的措施之一,SoftOpC)

谷歌AI团队应用完全非策略强化进修对机械进修策略进行了模拟培训,然后应用从曩昔的实际数据中列出的非策略分数对其进行评估。

在机械人抓取义务时,他们申报OPC的一种变体SoftOPC在猜测终极成功率方面体现最佳。假设有15种模型(此中7种纯挚在模拟中练习)具有不合的稳健性,SoftOPC孕育发生的分数与与真正的抓取成功亲昵相关,并且比拟于基线措施加倍稳定靠得住。

在未来的钻研中,钻研职员盘算用“噪声”(noisier)和非二进制动力学来探索机械进修义务。“我们觉得这个结果有盼望利用于许多现实天下的RL问题,”Irpan在论文结尾写道。

您可能还会对下面的文章感兴趣: