含光剑出，AI推理芯片如何创新

资讯 5年前

1.81K

9月25日，阿里巴巴集团首席技术官兼阿里云智能总裁、达摩院院长张建锋发表了题为《构建数字经济基础设施》的演讲。在演讲中，张建锋重磅推出AI推理芯片含光800，引发了众多关于它的讨论。

2019云栖大会已经揭开了帷幕，就在9月25日，阿里巴巴集团首席技术官兼阿里云智能总裁、达摩院院长张建锋发表了题为《构建数字经济基础设施》的演讲。在演讲中，张建锋重磅推出AI推理芯片含光800，引发了众多关于它的讨论。

近年来科技热潮一波接着一波。从物联网到可穿戴电子、从人工智能到5G，它们推进了国家的科技发展路径，与其同时也催生出了一大批创新公司：比如专精于安防的旷视科技、专精于视频的极链科技等等。其中的人工智能（AI）便曾在1950年代、1980年代先后热议过，并因多项技术限制与过度期许而回复平淡。而到了2016年，它又随着云端资料的增长和影音辨识的需求，再次进入了公众的视野。

含光剑出，AI推理芯片如何创新

分析AI推理芯片，自然要从人工智能说起。人工智能的运用一般分为两个阶段，即开发与执行，这也与其他大部分应用程序相类似。在实际投入运行前，人工智能需要进行学习与训练，借助大量繁复的运算来使模型获得更佳的参数调整数据，对运算的精准度、细腻度要求都相对较高；而在执行阶段，由于模型已经训练完成，所以不再需要庞大的运算量，再加上效率的考量，往往会采用较低的运算精度。也就是说，在这两个阶段，所需要的芯片能力其实是有所差异的。

目前人类要实现人工智能，只能靠芯片，别无选择。但是现有的 CPU、GPU、FPGA 等芯片的基本架构早在这次人工智能突破之前就已经存在了，并非为人工智能而专门设计，因此它们并不能完美地承担实现人工智能的任务。人工智能专家Michael I． Jordan也认为，我们今天所做的还不能算是真正的AI，而只是利用技术来增强一部分的智能而已，也就是所谓的IA（Intelligence Augmentation：增强智能）。

所以近年来，人们已经开始普遍使用CPU之外的芯片来加速，例如GPGPU、FPGA、ASIC等，特别是GPGPU为多，原因在于GPGPU的高阶软体生态较为完备、可支援多种人工智能框架。相对的，FPGA需要熟悉低阶硬体电路者方能开发，而ASIC通常只针对限定的软体或框架最佳化。虽然FPGA与ASIC较有难度与限制，但仍有科技大厂愿意投入，如Microsoft即主张用FPGA执行人工智能运算，Google则针对TensorFlow人工智能框架开发ASIC，即Cloud TPU芯片。

含光剑出，AI推理芯片如何创新

阿里此次推出的含光800，在业界标准的ResNet－50测试中推理性能达到78563IPS，比目前业界最好的 AI 芯片性能高4倍；能效比500IPS／W，是第二名的3．3倍。在杭州城市大脑的业务测试中，一颗含光800的算力相当于十颗GPU。这固然令人惊喜，但更重要的是，平头哥团队在过去一年中不断探索芯片与场景的融合，如对算力需求较大的图像视频分析、搜索、推荐等业务场景。围绕这一目标，平头哥针对场景深度定制了芯片的软硬件，例如自研了架构、软件编译器、框架、工具链等，如先后发布的玄铁910、无剑SoC平台，后期也针对INT数据类型做了大量优化。这说明中国的AI推理芯片不再满足于IA，而是试图往真正的AI靠拢。

在推理芯片市场之外，人工智能的训练芯片市场也值得观察。由于人工智能应用的开发、训练、参数调整等工作并非时时在进行，通常在历经一段时间的密集开发训练后回归平淡，直到下一次修改调整才再次进入密集运算。因此，企业若为了人工智能应用的开发训练购置大量的伺服器等运算力，每次训练完成后，大量的伺服器将闲置无用，直到下一次参数调整、密集训练时才能再次显现价值。鉴于此，许多企业倾向将密集训练的运算工作交付给云端服务供应商，依据使用的运算量、运算时间付费，而不是自行购置与维护庞大运算系统。这也应该是阿里只售卖基于含光800的阿里云服务，而非芯片本身的原因之一。

含光剑出，AI推理芯片如何创新