美国计划禁止云计算厂商为中国训练AI大模型,我的一点看法
美国商务部长吉娜·雷蒙多(Gina Raimondo)在2024年1月26日接受路透采访时宣布了限制外国客户、尤其是中国客户使用美国云计算厂商的服务训练AI大模型的计划。雷蒙多的原话是:“我们不能允许中国或者其他我们不希望的玩家使用我们的云服务训练他们的模型
美国商务部长吉娜·雷蒙多(Gina Raimondo)在2024年1月26日接受路透采访时宣布了限制外国客户、尤其是中国客户使用美国云计算厂商的服务训练AI大模型的计划。雷蒙多的原话是:“我们不能允许中国或者其他我们不希望的玩家使用我们的云服务训练他们的模型。我们引入了芯片出口禁令,但那些芯片正在被美国的云计算数据中心使用,所以我们需要考虑关闭这些渠道,以避免潜在的恶意行为。”(注:原文可参见1月27日的路透社电讯)
毫无疑问,上述举措把美国对华科技制裁推到了一个新的高度,对中国人工智能产业的潜在破坏力很大。虽然我不是芯片或人工智能方面的专家,但幸运的是,我在这些产业有很多朋友。在得知这个消息之后,我马上征询了他们的看法,学到了很多东西。他们普遍认为,美国商务部的新举措从宏观角度看是可以理解的,但是为什么要在这个时间点推出,就有些耐人寻味了。
过去一年多,中国的互联网大厂和科技公司自称在AI大模型领域取得了显著战绩,“与OpenAI的差距只有半年到一年”。就在前几天,周鸿祎还宣称“去年我们看大模型像原子弹,今年再看大模型像茶叶蛋”——从资本市场炒作的角度看,上述说法很有道理(尤其是有利于大股东离婚减持);从技术研发的角度看就完全不是那么一回事了。事实上,中国科技行业对OpenAI的“赶超”,离不开下面三个因素的帮助:
第一,对境外开源大模型的吸收借鉴。
GPT-3以上的版本是不开源的,但是国外并不缺乏开源大模型可供借鉴(抄袭),其中最受欢迎的就是Meta于2023年2月发布的LlaMA,以及7月发布的LLaMA2。LLaMA本来只是有条件地对学术界开源,但很快遭到大规模泄露,Meta索性将其后续版本做成了全面开源。
LLaMA2有三个公开版本,分别拥有70亿个、130亿个和700亿个参数;Meta还宣布会在合适的时候公布更复杂的版本。虽然LLaMA2还是比不上GPT-4,但是作为一个借鉴(抄袭)的原点已经足够了。众所周知,国内一部分创业公司(名字就不点了)的“自研大模型”就是拿LLaMA2套皮的,就连参数名称都懒得改。
第二,通过租用GPT接口,对GPT模型参数进行“蒸馏”。
一个月前,外电报道称字节跳动旗下产品疑似因为调用GPT接口训练自己的大模型而被封号。其实这种事情,所有人都在做,圈内俗称“蒸馏”。所谓“蒸馏”,就是反复与GPT进行海量对话,通过GPT返回的数据对自己的模型参数进行调节;简而言之,就是让GPT帮你训练自己的模型。
只要有足够的人力、财力,任何公司都可以通过先抄LLaMA2、再租用GPT进行“蒸馏”的方法,在较短的时间内搞出一个像模像样的“自研大模型”,在测试中的表现甚至真能做到“与OpenAI只差半年到一年”(具体差多少取决于花了多少钱做蒸馏)。很可惜,通过这种方法搞出来的大模型永远无法赶超OpenAI,就像在考试时抄学霸试卷的学生永远不可能超过学霸——对了,还得小心别被监考老师抓住。
第三,租用Azure、AWS等海外云计算服务,解决算力瓶颈。
从2022年开始,美国不断收紧对华芯片出口禁令。虽然英伟达多次推出了对华“特供版”GPU,但是美国商务部随即补上了漏洞,现在可供利用的漏洞已经很小了。公允地说,哪怕不考虑芯片禁令,中国公司也很难抢到足够的GPU,因为英伟达的高端GPU一直供不应求,亚马逊等北美大厂经常是“出了新型号先抢一万张”,来自中国的客户的优先级肯定不会太高。
我们知道,AI大模型使用的算力分为“训练”和“推理”两种,前者要求明显更高。因此,中国科技公司普遍采取了“训练与推理分开”的模式,把一大块训练业务交给微软Azure、亚马逊AWS、谷歌GCP等北美云计算大厂去做,因为只有它们有足够的高端算力;至于推理,则可以全部放在国内(合规要求也必须在国内),甚至在硬件端搞一些“国产替代”。这个玩法,实际上是变相绕过芯片禁令,芯片虽然没进口到中国,相关算力却是中国公司在使用。美国监管当局肯定早已注意到了这里存在的漏洞,只是以前没管,现在决定出手管了。
当然,美国商务部的提议会不会诉诸实践、合不合法(此处是指美国的国内法),是值得争议一番的。不过在中美科技竞争的大背景下,这个提议得到实施的概率很大,美国云计算厂商的大门早晚是要对中国客户关上的。真正需要回答的问题有两个:
为什么美国要在这个时候推出新的禁令?那些认真想赶超GPT的国内厂商,接下来去哪里找算力?
先说第一条。从商业或科技逻辑讲,美国商务部在此刻提议新的禁令,有点不太好理解:中国与美国在AI大模型方面的差距仍然很大,所谓“大模型从原子弹变成了茶叶蛋”纯粹是A股公司大股东为了减持而吹的牛逼,业内人士没人相信,美国人应该更不信。允许中国公司租用美国云计算资源,在短期内不会影响硅谷的科技霸权,反而会带来一笔不菲的收入。芯片禁令对中国AI研发的限制已经够大了,有必要更进一步、把事情做绝吗?微软、亚马逊这些云计算巨头为什么不阻止美国商务部把事情做绝呢?
对于上面的疑问有两种解释路径。一种是政治解释:今年是大选年,美国两党在互相比较谁对中国更强硬,“战场州”的选民普遍对全球化没什么好感,此时加强对华科技禁令是一张比较好的牌。至于硅谷科技巨头,这几年一直是它们春风得意、收入和利润猛增的时刻,失去一点来自中国客户的云计算收入应该不是大问题,没人愿意为此事死磕。
另一种则是科技解释:下一代AI大模型(GPT-5及其竞争对手),需要的训练算力可能会升级到“万卡规模”乃至“N万卡规模”。因为在现有基础上进一步提升大模型的能力,必须“大力出奇迹”、从资源规模上想办法,就像当年的核武器从2万吨量级飙升到千万吨乃至1亿吨一样。如果中国公司打算追赶到这一步,那它们对美国云计算资源的需求就会上升一个数量级;换个角度讲,美国本土客户的需求也会上升一个数量级,导致微软、亚马逊手中的高端算力更加供不应求。
因此,美国商务部此时提出对华云计算服务禁令,一方面是提前封死中国公司追赶的道路,另一方面也有助于把宝贵的算力资源留给美国本土公司使用。在市场经济环境下,价高者得,发生什么事情很难说;所以最佳竞争策略是把中国公司排除在市场经济之外。微软、亚马逊肯定也知道自己手里的算力会更加精贵、不缺客户,所以也没有动力提出反对。
现在轮到第二个问题:对于那些真心想追上世界领先水平(而不是炒高股价、离婚减持)的中国科技公司而言,接下来要去哪里找算力呢?答案取决于它们愿意付出多高的代价,而且不仅是经济代价。哪怕美国商务部正式颁布并严格执行禁令,中国公司要通过注册海外分支机构、寻找海外合作伙伴的方式去变相购买美国云计算服务,应该也是有门路的。问题在于一旦被抓,后果可能很严重——永远不要低估美国监管者下死手的力度。国内互联网大厂多是美国、香港上市公司,它们有没有胆子为了AI大模型冒如此巨大的风险呢?
如果不考虑上述冒险做法,那就只有立足于发掘国内算力资源了。目前AI相关芯片领域所有的“国产替代”都集中在推理端,因为推理所需算力要求不高。在训练端,全世界都存在对英伟达(设计)+台积电(制造)的替代需求,可是全世界都没做到(包括美国自己的科技大厂)。或许再过五年、十年,总归有人能拿出替代方案,但那时的世界又不一样了。上文提到过,目前国内自研AI大模型与GPT的差距还是明显的,而且GPT自身也在迅速迭代,训练算力的需求一时半会是下不来的。
目前国内的几家主流大厂(大家都知道是哪几家),平均每家手头只有1000-2000张用于通用大模型训练的显卡,有的多些、有的少些。有人猜测,某些大厂可能在海外囤积了大批显卡;不过考虑到近年来英伟达显卡一直供不应求,就算“囤积”了,规模也不会太大。即将到来的GPT-5时代,可能是一个“万卡规模”的时代,全国现有的符合要求的显卡加起来可能都满足不了哪怕一个自研大模型的训练需求。怎么办?我也很想知道。
附带说一句,在2022年11月ChatGPT横空出世之前,中国科技公司囤积英伟达显卡的最强动力,竟然是为云游戏做准备——当时很多互联网大厂是真心相信云游戏是未来、而且能迅速兑现的。无心插柳柳成荫,云游戏虽然一直没起来,为云游戏准备的显卡却成了中国AI大模型的救命稻草。
真是令人啼笑皆非:过去三年,中国游戏行业遭受了来自四面八方的一轮又一轮的抨击,夹起尾巴做人,在社交媒体上动不动就能看到“游戏算科技吗”“游戏有什么技术含量”的说法。现在,居然是游戏行业要在拯救中国“硬科技”的过程中,发挥举足轻重的作用。我们所有人都欠游戏行业一个感谢。那些一贯轻视、侮辱、诋毁游戏的人,还欠游戏行业一个道歉。我等待着他们的道歉,我希望能听到他们的道歉!
原文标题 : 美国计划禁止云计算厂商为中国训练AI大模型,我的一点看法