意料之外的AI硬件巨头
文:诗与星空(ID: SingingUnderStars)?很多年前,曾经很流行一种网络游戏,叫MUD(也叫玩泥巴,现在依然有很多MUD服务器,但玩家大多是上古遗留人士)。这种游戏没有图形界面,人机交互靠的是文本,早期还都是英文,后来支持汉字
文:诗与星空(ID: SingingUnderStars)
很多年前,曾经很流行一种网络游戏,叫MUD(也叫玩泥巴,现在依然有很多MUD服务器,但玩家大多是上古遗留人士)。
这种游戏没有图形界面,人机交互靠的是文本,早期还都是英文,后来支持汉字。
比如,到了一个地方,输入look,系统会告诉你,这是哪里,有什么,然后嗖对方一箭射过来,你就昏迷了过去。
最近一直高强度使用ChatGPT、Claude、文心一言等生成式通用人工智能,突然想到一件事:如果把这些AI工具,接入硬件设备会怎样?
还真有人在这么干,一个是微软,一个是谷歌。
01
微软画得大饼
2月20日,微软发布了"ChatGPT for Robotics"的技术报告,为如何将ChatGPT 融入机器人领域提供了一种可能的视角。
与纯文本的应用不同,机器人系统需要对现实世界的物理、环境背景和物理动作的执行能力有深入的了解。
而且所生成机器人模型需要具备相当的常识性知识和符合实际的物理模型,以及与用户交互以解释和执行实际现实中可行的命令。
从报告来看,非常像玩MUD。
1.首先需要手工设计一系列的机器人功能库函数来实现底层执行器的命令,如,移动,停止,获得目标的位置信息等等。
2.第二步是给ChatGPT 写一个提示词,用来描述需要让ChatGPT 执行的目标。
3.第三步是使用者评估ChatGPT 生成的代码,并且给ChatGPT 提供反馈,让ChatGPT 进行下一步改进。
4.通过提供反馈,将代码进行不断迭代改进,当测试通过之后,就可以部署到实际的系统中了。
经过对ChatGPT特定训练后(其实是一种lora),形成稳定的版本,ChatGPT在理解了“自然语言”后,把指令分解通知机器人,然后调取其传感器,根据反馈结果进行下一步处理。
在ChatGPT出现之前,人和机器人(其他设备类似)交互是一种非常专业的事情,一般由设备厂件提供标准的交互软件,如果可以定制,再给一个可以调用的SDK,所有操作几乎都是提前写死的,几乎做不到全自动的运动。
像大疆能够做到自主反馈,已经是机械设备领域的巅峰了。
AI改变了这一切。
02
谷歌做的样机
3月10日左右,谷歌发布了一段视频,基于一个名叫PaLM-E的大模型。
通过这个大模型的驱动,机器人可以按照人类的指令去拿零食、拿可乐。
如果说微软的技术报告还在PPT阶段的话,谷歌已经实现了工程样机。
现在回过头来再思考当年谷歌为什么收购波士顿动力,似乎恍然大悟。
可惜的是,在大模型方面谷歌没能第一时间领先,波士顿动力也因成本过高出手。
比如给它一张图片,然后让它根据所看到的做出蛋糕。
模型能先判断出图像中都有什么,然后分成9步讲了该如何制作蛋糕,从最初的磕鸡蛋到最后洗碗都包括在内。
03
大模型从NLP到CV
ChatGPT也好,文心一言也好,现在大模型的应用主要用在NLP(自然语言处理)领域,实际应用以交互对话为主。
而机器人的领域,是CV(机器视觉),这个领域的人工智能最领先的国家是谁?
中国。
2022 年,CVPR 大会的投稿量达到 8161 份,相比 2021 年度的 7093 份提交增长了 15%。其中 44.59% 的作者来自中国,排在第二名的是美国,占据 20.65%。
同济研二在读,达摩院研究型实习生获得了最佳学生论文奖。
同济、清华、阿里达摩院等学术机构大奖拿到手软,很多国内企业也大放异彩,比如商汤有 66 篇论文入选,还拿到了 CVPR 2021 ActivityNet 时序动作检测任务弱监督学习赛道冠军以及 CVPR 2021 NTIRE 视频理解挑战赛的三项冠军;快手也有 14 篇论文被接收,涵盖三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域
换言之,ChatGPT嘴皮子功夫再厉害,最终还是要喂给机器,这才是真正的生产力。
到了这个环节,就是中国人的天下了。所以完全不用担心AI领域中国会落后。
软件的本质是算法,算法的本质是数学。
数学?嘿嘿嘿。中国人的数学已经卷出地球了。
04
工业机器人,你知道我说的谁了吗?
也就是说,高科技软件的实质,要回到物理层面:机器、设备。
AI将要在一个领域掀起一场革命,那就是工业机器人。
中国最大的机器人上市公司是谁?
美的,因为它在2016年并购了库卡集团,库卡作为世界四大机器人巨头之一,年销售额已经接近300亿(2022年299亿)。
2月,美的集团宣布成为百度文心一言(英文名:ERNIE Bot)首批生态合作伙伴,携手百度推进智能家居领域人机对话能力的进一步升级,通过前沿的生成式AI技术,用户有望实现智能家居场景下自然流利的对话。
美的集团AI创新中心算法负责人介绍,接入百度文心一言能力后,美的智能家居、美的家庭服务机器人将可以优先内测和试用文心一言的诸多能力,这将明显提升现有产品和服务的智能化水平。
整个流程,一下子打开了,豁然开朗。
一个人和机器和谐共存的未来,是不是很值得期待?
原文标题 : 意料之外的AI硬件巨头