文:郑开车@谈擎说AI主编
最近美国又加大对中国芯片行业的限制力度,英伟达、AMD两家企业旗下生产的部分GPU产品将被美国列入停售范围。
据悉,不允许出售到中国企业的芯片主要包括英伟达A100和H100、AMD MI250等高性能AI芯片,并且未来峰值性能和I/O性能达到或高于A100的芯片,都在新的出售许可证所要求的范围。
由于禁售的几种芯片主要用于自动驾驶云端训练,所以国内自动驾驶和汽车行业都在消化这个黑天鹅式的突发消息。
对此小鹏汽车创始人何小鹏乐观地表示,“未来几年的需求提前买回来了”,百度副总裁王云鹏则马上回应“我们通宵讨论如何加速创新、实现前沿科技自立自强”,并批评何小鹏“和资本市场说我没事儿”显得格局太小。
两位大佬的发声都是站在自家企业的立场发声,谁是谁非我们暂且不做评论。眼下更为重要的是,“限芯令”会不会再加大力度?“限芯令”实施之后,整个自动驾驶行业中,究竟哪些企业首当其冲,哪些企业反而可能迎来机遇?
英伟达卡了谁的脖子?
首先要明确一点,“限芯令”针对的主要是用于云端数据中心的高性能GPU芯片,主要用于AI算法的训练。这对自动驾驶行业有多重要呢?
业内普遍认为,智能驾驶的量产竞争,主要取决于时间和成本两个维度。
一是时间维度,即算法迭代的周期中,处理海量数据的速度决定自动驾驶能力提升速度。另一个是成本维度,即在整个算法迭代周期中,处理海量数据所消耗的计算、存储、带宽等资源成本。
由于有海量数据的主机厂并不在少数,所以能把海量数据中蕴藏的“算法养料”提取出来就成为关键。
在英伟达推出大算力芯片之前,数据处理依赖大量人工,效率太低。以至于行业内有一个流传甚广的玩笑,“所谓人工智能,就是有多少人工就有多少智能。”
从效率的对比来看,本地AI训练数据处理的效率较人工提升3~4倍,而依托云端的更高算力,汽车云服务数据处理的综合处理效率提升10倍以上,数据处理的成本也较人工降低50%。
对主机厂和自动驾驶公司而言,自动驾驶的时间窗口需要用算力来争取,英伟达的高性能GPU芯片就是前者的生产力。
去年特斯拉公布了采用英伟达A100芯片的云端训练集群,还发布了超级计算机Dojo,以此打造自动驾驶算法的云端基础设施,构建数据驱动的闭环。
在国内,继特斯拉之后,蔚来汽车、小鹏汽车、毫末智行等公司摸着特斯拉过河,也都在基于英伟达A100芯片打造自动驾驶训练中心。
“量产车产生的海量数据是蔚来自动驾驶能力护城河。而NVIDIA 的高性能计算解决方案,成为了蔚来在自动驾驶这条道路上的加速器。”蔚来 AI 平台负责人白宇利表示。
小鹏一直是自动驾驶布局相当积极的新势力车企,近日小鹏汽车基于阿里云建成了自动驾驶智算中心“扶摇”,用于自动驾驶模型训练,所以何小鹏表示自己没有压力。
而如果从长远来讲,用于L4的自动驾驶的数据量在不停递增,以后是否还需要对算力进行升级也犹未可知。
需要注意的是,特斯拉目前已经用自研的D1训练芯片替代英伟达的A100。而且从官方公布的性能数据对比来看,D1相比英伟达的A100也更有优势。
所以特斯拉可以说已经摆脱了对英伟达的算力依赖,但是对国内的蔚来、小鹏、百度们来说,很难找到比英伟达更合适的GPU供应商,也没有自研的能力,这无疑是一种群体性打击。
L4成本高企,量产或将推迟?
对国内L4级自动驾驶玩家来说,“限芯令”的影响之所以残酷,是因为无论其L4级自动驾驶的方案如何强调差异化优势,都绕不开高性能AI芯片。
具体来讲,随着高阶自动驾驶逐步进入现实,数据闭环的概念越来越受到重视。所谓数据闭环,就是不仅要有数据的分类采集,还要有为数据生产服务的工具平台,对数据从导入、清洗、加工、筛选、利用等进行全生命周期的管理。
比如在激光雷达和视觉算法的开发闭环中,需要云仿真平台。云端的感知仿真会涉及到大算力GPU的使用,虽然感知算法更多是在车端跑,但是决策、规划、和控制算法基本上都要在云端跑才更有效率。
值得注意的是,对于AEB、主动变道等辅助驾驶功能,如果没有云端并行仿真,也能完成开发。但是对于L4级的自动驾驶,云仿真必不可少。
“一款配置有10个摄像头和2个激光雷达的车型,在云端做感知仿真的话,如果让500个节点并发运行,大概需要三千多块GPU。考虑到每家主机厂有很多款车型,单是云仿真对GPU的需要量就相当惊人。”某自动驾驶公司研发人员向谈擎说AI表示。
事实上,从AI训练芯片的性能来看,英伟达的性价比并不是最高,比如英特尔最近推出新一代AI训练芯片Gaudi2,性能方面大约是A100的两倍。谷歌旗下的Waymo作为自动驾驶领头羊,也有自研的TPU芯片来替代英伟达的GPU。
但是美国政府出台的“限芯令”既然是为了针对中国,考虑到以后同样有被限制出口的风险,英特尔和谷歌的芯片大概没有中国企业敢大批量采用。
值得一提的是,AI训练芯片并非没有可以替代的国产产品,其中华为昇腾910、寒武纪的思元290智能芯片在性能功耗方面已经不输于英伟达A100。
然而,由于大部分主机厂的软实力较差,不仅要有芯片、还要有容易上手的工具搭配使用。基于这一点,英伟达的CUDA软件栈进行第三方应用及工具的扩展,建成了自己的“CUDA生态”。
这意味着,想要继续攀登L4高峰的主机厂要想置换成国产AI训练芯片,除了付出迁移成本,可能还要在替代芯片上投入时间和研发成本。
不过,若站在国产AI芯片供应商的角度看,这或许意味着,此时正是投入研发工具链生态的有利机会。
不过,英伟达面对“限芯令”,也不想失去国内的大客户,创始人黄仁勋于是提出了解决方案,其实就是用还没有被禁止的低端芯片来替代,比如12nm制程的Volta架构产品V100。
对AI芯片有旺盛需求的国内主机厂和自动驾驶厂商来说,要么忍受自动驾驶技术“原地踏步”一段时间,随后彻底使用国产替代产品,要么继续英伟达的低端芯片。不过这同样意味着L4的研发进度或成本可能无法达到此前的预期。
L2不再是“鸡肋”,高性价比视觉方案“上位”?
虽然L4自动驾驶玩家受到“限芯令”的打击比较明显,但是对L3级以下的自动驾驶玩家来说,不仅没有不利的影响,可能对这个赛道的繁荣都是一种利好。
首先,从商业化的紧迫性来看,L4企业无法再轻易获得高性能AI训练芯片,会倾向于降维求生。
就好比Robotaxi玩家们今年融资和上市遇冷之后,纷纷“降维”与主机厂合作,L2开始成为自动驾驶创企们角逐的焦点。
其次,从技术成本来看,L2自动驾驶方案暂时不需要AI芯片,其商业价值的想象力虽远不及L4,但依然有投资机构愿意用真金白银支持。
据天眼查APP显示,自动驾驶前装系统方案提供商知行科技近日获得了来自HL Klemove的战略融资。
这家此前不太受到关注的公司能够赢得资本青睐,不仅在于其已实现L2、L2++方案的规模化量产。更重要的是,在产品定位方面,知行科技的自动驾驶量产方案更重视BOM成本控制和硬件使用效率,一开始就走的是相对低调而务实的单目视觉路线。
单目视觉和双目、多目等都属于不依赖激光雷达的纯视觉方案,这几种路线大致的差别是:
多目和双目路线的摄像头融合技术难度大、上限高、成本也较高,丰田、奔驰、华为、博世等车企和供应商都加入了双目立体派的阵营。可以发现,无论是供应商还是主机厂,都是头部企业在布局。
而单目摄像头则是一种低成本高可靠性的感知解决方案,搭配其他传感器,可以满足L1、L2以及部分L3场景下的智能驾驶功能。
事实上,在英伟达以算力优势超越Mobileye的市场份额之前,Mobileye最引以为傲的技术就是单目摄像头解决方案。只不过后来Mobileye的“黑盒”合作模式给主机厂带来很多调试迭代方面的不方便,所以英伟达的依托工具链和CUDA生态壁垒得以后来居上。
从这里也可以看出,采用单目摄像头的自动驾驶供应商并非一种落后的、低级的技术方案。更多是因为在特斯拉的示范效应和大家对L4报以超高期待的前提下,算力才成为生产力。
然而在L4因缺芯不断推迟落地的背景下,低阶自动驾驶方案可能迎来批量上车的机会。或者说在现有市场环境下,单目摄像头解决方案可能更有利于车企提升产品的智能性价比。
当中低端车型的智能化市场规模开始大量释放,对主机厂来说,也不失为一股提升生产力的推动力。
此外,便宜的方案可能只是听起来比较low,向L4进阶的路并没有被“堵死”。在经过多次迭代升级之后,配合其他传感器,也有可能升级为完全自动驾驶。
例如,根据Mobileye给出的方案,其L4级系统的硬件配置包括360度环绕摄像头、4D成像雷达,甚至还融合了一颗高分辨率的前置FMCW激光雷达。或许成熟的单目感知技术配合上其他“高大上”的配置,也是渐进式实现L4的一种可行路径。
事实上,国内首款搭载了Mobileye SuperVision(纯视觉自动驾驶方案)的极氪 001,就是一台没有搭载激光雷达,也能在城区实现领航辅助驾驶的车型。
在谈擎说AI看来,如果按照上文的猜测,也就是说,英伟达主导的算力至上的自动驾驶方案不再具有性价比优势,那么或许效仿Mobileye的算法派车企和供应商会越来越多。
过去几年,渐进式路线与一步到位的路线一直是自动驾驶争论的话题,而事实上,无论哪种路线,都是殊途同归,就是乘用车的完全无人驾驶。
而在真正的量产落地之日来临之前,一边不断尝试多样的替代方案,一边保持沿途下蛋,可能是每个国内自动驾驶公司和车企保持稳定竞争力的权衡之策。