深入FB全新机器人实验室
在加州大学伯克利分校,一组研究人员使用了一种叫做强化学习的技术,来教一个名叫Brett的双臂机器人把一个方钉塞进一个方孔里。简而言之,机器人尝试了许许多多的随机运动。
乍一看,Facebook新生的机器人平台看起来有点混乱。在这家公司硅谷总部的一个新实验室里,一只红黑相间的Sawyer机器人手臂(来自最近倒闭的Rethink Robotics)不断挥舞着,发出呜呜的机械声。照理说,它应该可以把手臂移动到右边空间中的一个位置,但是它却向上移动,偏离设置的方向,并重置到起始位置。终于,它的手臂向右移动了,非常接近目标位置。但是,它却再次疯狂地偏离了方向,不得不被再次重置。
不过,就像一只兔子为了躲避猎鹰而来回曲折,这个机器人看似疯狂实际上却是很聪明的。Facebook认为它既是开发更好机器人,也是开发更好人工智能的关键。也就是说,这个机器人正在自学探索世界。Facebook表示,未来有一天,将会出现像远程呈现机器人一样的智能机器。
当然,目前的机器人仍处于非常笨拙的状态——一般来说,你必须用代码为它们说明一切:这是你向前滚动的方式,这是你移动手臂的方式。我们人类在学习方式上要聪明得多。甚至婴儿也明白,一个从视野中消失的物体并没有从物理世界中消失。他们知道可以滚动球,但无法滚动沙发。从沙发上摔下来没关系,但从悬崖上摔下来却不是。
所有这些实验都在你的大脑中建立了一个世界模型,这就是为什么你可以在学会驾驶汽车后,不会立马撞车。Facebook首席人工智能科学家Yann LeCun说:“我们事先知道,如果开车靠近悬崖,然后向右转动方向盘,汽车就会从悬崖上掉下来,不会有什么好事发生。”我们头脑中有一个自学的模型,可以防止我们做傻事。Facebook也试图给机器提供这种模式。“在我看来,学习世界模型的系统是在人工智能领域真正取得重大进展的下一个挑战,”LeCun补充道。
不过,Facebook的研究小组并不是第一个试图让机器人自学移动的团队。在加州大学伯克利分校,一组研究人员使用了一种叫做强化学习的技术,来教一个名叫Brett的双臂机器人把一个方钉塞进一个方孔里。简而言之,机器人尝试了许许多多的随机运动。如果在一次移动中更接近目标,系统会给它一个数字“奖励”。如果它搞砸了,它会被数字“记过”。经过多次反复,寻求奖励的机器人会让它的手越来越靠近那个方孔,最后把钉子放进去。
让机器人拥有“好奇心”
Facebook正在做的实验有点不同。“我们想要尝试的是灌输这种好奇心的观念,”Facebook人工智能研究科学家Franziska Meier说。人类就是这样学会操纵物体的:孩子们被对世界的好奇心所驱使。他们尝试新的东西,比如拽猫的尾巴,并不是因为他们必须这么做,而是他们想知道如果这样做了会发生什么。
因此,尽管像Brett这样的机器人会一点一点地完善自己的动作,但Facebook的机械臂却可能会出现靠近目标时偏离方向的现象。这是因为研究人员没有奖励它增量成功,而是给予它尝试非最佳动作的自由。它在尝试新的东西,即使这些东西现在看起来并不特别理性。
每次移动都为系统提供数据。在每个关节上施加扭矩是为了把手臂移动到那个特定的位置。Meier说:“虽然没有完成任务,但它给了我们更多的数据,我们通过这样的探索获得的数据种类比不探索时要多。”这个概念被称为自我监督学习——机器人尝试新事物并更新软件模型,这可以帮助它预测其行为的后果。
这个想法是为了让机器更灵活,对一项任务不那么专一。我们可以把它想象成完成一个迷宫。也许机器人知道它需要朝哪个方向前进才能找到出口。它可能会一次又一次地尝试到达那里,即使它不可避免地会在那次追逐中陷入死胡同。奥斯陆大学机器人专家T?nnes Nygaard说:“由于你如此专注于向那个方向移动,你可能会走进角落。”他已经开发出一种四足机器人,可以自己学会走路。(Facebook也在尝试让一个六腿机器人自己行走,但是在我参观实验室的时候该公司尚未能进行展示。)“与其如此专注于说,我想朝着我知道解决方案所在的方向前进,不如我试着专注于探索。我将尝试寻找新的解决方案。”
所以Facebook的机器人手臂做出的那些看似不连贯的动作实际上是一种好奇心,正是这种好奇心可以让机器更容易适应环境。想象一下一个家用机器人正试图填装洗碗机。也许它认为把杯子放在顶部架子上最有效的方法是从侧面拿过来,在这种情况下杯子会碰到架子的边缘。从某种意义上说,这是确定性的:一次又一次的反复尝试,让它走上这条不太理想的道路,在这条道路上,它试图更好地侧向装载,但现在它无法备份并尝试新的东西。另一方面,一个充满好奇心的机器人可以通过实验和学习,了解到从上面进来实际上是最好的方法。它是灵活的,不是决定性的,这在理论上允许它更容易适应动态的人类环境。