非监督强化学习：谷歌DADS算法

资讯 4年前

1.52K

近年来强化学习的高速发展已经证明监督强化学习可以在真实世界中处理包括任意物体的抓取、灵巧的运动等复杂的任务。然而利用精心设计的奖励函数来教会智能体进行复杂的行为却面临着显著的局限性。

近年来强化学习的高速发展已经证明监督强化学习可以在真实世界中处理包括任意物体的抓取、灵巧的运动等复杂的任务。然而利用精心设计的奖励函数来教会智能体进行复杂的行为却面临着显著的局限性。一方面在设计损失函数上需要大量的工程性工作，对于大量任务来说几乎是不可能的。另一方面针对真实环境设计奖励，其复杂性不仅来自于奖励函数本身，同时还需要一系列的环境基础设施（额外的传感器）或手工标注的目标状态来进行辅助。这种奖励函数工程方式显示了智能体学习复杂行为的过程，而无监督学习的出现为这一问题提供了潜在的解决思路。

在监督强化学习中，来自环境的外部奖励将引导智能体学习期待的行为，强化对环境进行期待的行为改造。而在非监督强化学习中，整体则利用内在的奖励函数（例如尝试环境中不同事物的好奇心）来生成训练信号，从而可以获得更为广泛的任务无关的技能行为。内部奖励函数可以绕过外部奖励函数特有的工程问题，在无需额外设计的情况下适用于更广泛更通用的任务上去。虽然已经有很多研究人员聚焦于实现非监督强化学习的不同手段，但这是一个严重欠约束的问题，没有环境奖励函数的引导是很难学习到有用的行为的。那么主体和环境间交互的有效特性是否可以帮助发现更好的行为（技能）呢？

这篇文章中将介绍关于非监督强化学习的最新研究。在DADS（Dynamics－Aware Unsupervised Discovery of Skills）方法中为非监督学习引入了可预测的优化目标，将技能的基础特性视为可以对环境带来可预测的改变，基于这一观点开发出了非监督强化学习技能发现算法，并在模拟实验中展示了其广泛适应性。随后研究人员还改进了样本效率，展示了非监督技能发现对于真实世界的可行性。