GPGPU会成为算力危机的解药吗？

资讯 1年前

1.03K

近日大火的聊天机器人程序ChatGPT，最终还是崩了！多位用户反映，其网站因为运算量过大，出现了无法回复的情况。翻译：我们出现了远超预想的（运算）需求，请再坚持一下并等待我们将系统扩展。事实上，ChatGPT出现崩溃只是算力紧张的一个缩影

近日大火的聊天机器人程序ChatGPT，最终还是崩了！多位用户反映，其网站因为运算量过大，出现了无法回复的情况。

翻译：我们出现了远超预想的（运算）需求，请再坚持一下并等待我们将系统扩展。

事实上，ChatGPT出现崩溃只是算力紧张的一个缩影。近日随着百度、京东、腾讯等国内厂商宣布参与智能聊天机器人领域的竞争，未来类似ChatGPT这样的程序将越来越多。人工智能发展是大势所趋，全球市场对于算力的需求也将出现快速的增长。

GPU的“变种”

在算力领域“挤走”CPU

提到算力，首先不得不说的就是CPU（Central Processing Unit，中央处理器）。1971年，英特尔生产的4004微处理器将运算器和控制器集成在一个芯片上，标志着CPU的诞生，这也是大规模机器运算的开始。后来从四位运算开始，每隔几年处理器的性能就会翻倍。

再之后，单纯的运算位数增加已不再满足复杂的运算需求，CPU逐渐向更多核心，更高并行度发展。典型的代表有英特尔的酷睿系列处理器和AMD的锐龙系列处理器。

CPU最大的特点是全能，作为中央处理器，其性能被平均分为多个模块，也因此CPU可以完成绝大多数指令下的任务，整体属于一款较为均衡的产品。

与此同时，由于电脑显示器的出现，传统的GPU（Graphics Processing Unit，图形处理器）也应运而生。显示器上的图形显示需要大量的重复运算（显示各种颜色，甚至三维图像），其对于算力的要求要远高于以处理指令为主的CPU。因此不同于CPU，GPU更强调了并行计算的方法，这也让GPU无论是算力还是运算速度，都要高于CPU。

随着显示器分辨率的不断提升，特别是多款大型游戏对于显示器分辨率的要求越来越高，GPU的运算性能也在飞速提升，而且提升速度快于CPU。

在这一方面，英伟达占据了GPU市场的头把交椅，不少人应该都有过为了某款热门游戏，而单独安装英伟达显卡的经历。

很长一段时间以来，CPU负责中央控制和各种运算，GPU负责少量处理和大量重复运算，两者相辅相成，各自担负起了对应的职能。

然而，有人看到了GPU相对于CPU高算力的优势，于是一种去掉了GPU图形处理部分内容，而仅保留了科学计算，AI训练、推理任务等通用计算类型的GPGPU（General－Purpose computing on Graphics Processing Units，通用图形处理器）诞生了。

GPGPU，可以说是特化版的运算芯片，GPGPU通过 GPU 多条流水线的并行计算来实现大量计算。超长流水线的设计以吞吐量的最大化为目标，在对大规模的数据流并行处理方面具有明显的优势。

如果说普通CPU的计算能力是小溪流，那么GPGPU的计算能力就是并行了注入多条河流的大江长河。在未来人工智能爆发的时代，其远优于CPU的运算性能，决定了这个GPU家族的“变种”在算力领域将“挤走”传统的CPU，大规模应用于算力市场中。

事实上，此前就有消息表示，ChatGPT已导入了至少1万个英伟达高端的GPGPU，不论此消息是否属实，ChatGPT至少很大概率使用了大量的GPGPU，并且好像已投入的部分还不够用，需要更多。一个高端GPGPU动辄数十上百万，这样看来，GPGPU的市场空间可能会非常大。

GPGPU生态：

英伟达业内领先，国内生态初见雏形

事实上，一般的GPGPU确实具备了超快速的运算能力，然而，要想达到ChatGPT这种真正具备一定解决问题能力的成型AI系统，仍需要大量的开发工作，特别是需要海量的深度学习支持。AI才能面对并有效处理海量的问题。深度学习与GPU的图形处理有一些相通的地方，它需要大量的数据来“训练”模型。比如一个猫图识别AI，需要提供数以万计的猫图供其“学习”。而每一张猫图的学习又与其他猫图没有先后关系，每一张猫图，其实就相当于一次学习。

而如果缺少这些必要的开发学习支持，否则的话，GPGPU空有大量的运算能力，却不一定能够做出正确的运算。例如，前两天谷歌Bard的发布会中，就犯了事实性的错误，在一个“关于詹姆斯·韦伯太空望远镜（JWST），我可以告诉我9岁的孩子它有哪些新发现？”的问题中，Bard给出的一个答案是：太阳系外行星的第一张照片，是用JWST拍摄的。然而事实上，2004年，第一张系外行星照片是由欧洲南方天文台的甚大望远镜（VLT）拍摄的。

这种学习、运算与开发的过程，往往需要一个统一的开发架构，架构越优秀、越适配GPGPU。开发的效果也会越好。在这一领域，英伟达的优势比较明显，英伟达的CUDA（Compute Unified Device Architecture，统一计算架构）集成技术，占据了全球八成以上的GPGPU开发市场。通过这个技术，用户可利用英伟达的GPU进行图像处理之外的运算。由于绝大多数架构都是针对CPU进行编程的，更突显出了英伟达该架构的稀缺性。

不过，最近英伟达也遇到了越来越多的挑战，首先是一款新的架构PyTorch在AI开发领域大有后来居上的架势，由于其将支持更多GPU，相比于英伟达对GPU领域的垄断，受到了很多厂家的欢迎。而后续OpenAI（推出ChatGPT的公司）又发布了一款开源的GPU开发架构Triton。其虽然可以看作简化版的CUDA，但由于其采用较易编码的Python进行开发，且性能不输CUDA太多，最重要的是：其代码开源也意味着开发者享受着自由的环境，因此该开发架构也受到了很多开发者的欢迎。尽管目前Triton还只支持英伟达的GPGPU芯片，但其负责人员表示未来会支持更多厂商的芯片，做到真正的自由开发。

国内的GPGPU生态起步较晚，但近年来不断的投入，也在2022年有了一定的成绩。首先是在RISC－V（一种开源架构）中国峰会上，清华大学集成电路学院何虎副教授团队发布了基于RISC－V的开源GPGPU实现方案，名为“承影”（Ventus），同时还给出了映射方案、指令集和微架构的实现。

而上海交大在GPGPU架构领域，同样取得了不小的突破。2022年8月，上海交大团队正式对外发布了自研开源GPGPU平台“青花瓷”。“地缘政治所带来的不确定性在这几年有增无减，国产化的势在必行。利用开源及开源生态所创造的芯片，就有可能解决卡脖子的困境。发布这款芯片的团队主要成员梁教授表示。“通过十年的努力打造属于中国的GPGPU生态，做人人都用得起GPGPU，这是我们的愿景”。

国内GPGPU公司：

有所突破，但仍任重道远

有了多样的生态，国内的一些GPGPU公司也在研发的道路上不懈努力，推出了一些有竞争力的产品。

2022年9月，壁仞科技首次展出了BR100系列GPGPU芯片，算力创下全球纪录。壁仞科技首款通用GPU芯片BR100，基于壁仞科技原创芯片架构研发，采用的是7nm先进制程工艺，可容纳770亿颗晶体管，16位浮点算力达到1000T（1T＝1024G）以上、8位定点算力达到2000T以上。BR100芯片在国内率先采用Chiplet（先进封装）技术，使得中国的通用GPU芯片迈入“每秒千万亿次计算”新时代，最为振奋人心的是，这是第一次全球通用GPU算力纪录由中国企业制造。

随后，浪潮AI服务器成功搭载壁仞科技自研的高端通用GPU，在多项比拼中获评全球最佳性能，实现了国产芯片在国际AI赛场上的精彩亮相，取得了历史性的突破。

在A股上市公司当中，目前还没有以GPGPU为绝对主业的公司，但仍有与GPU业务有一定关系的上市公司，其中景嘉微经过多年的研发积累，公司在传统GPU设计及特定领域应用方面形成一定的技术、品牌等综合优势。公司在半年报中指出，其已在通用GPU（即GPGPU）领域有所延申，正持续研发并提供相关产品。

而以CPU为主要产品的海光信息，也已研发出了基于GPGPU的DPU（Data Processing Unit，中央处理器分散单元）产品，该产品其实是GPGPU的一种。其兼容“类 CUDA”环境，解决了产品推广过程中的软件生态兼容性问题。公司通过参与开源软件项目，并实现与 GPGPU 主流开发平台的兼容。