黑马Groq崛起:能否挑战英伟达在AI芯片领域的霸主地位?
AI芯片行业即将迎来转折点,专注于推理的Groq LPU可能改变游戏规则。
近期,大模型领域涌现了一系列重磅产品:OpenAI发布“文字生视频”大模型Sora、Meta推出视频预测大模型V-JEPA、谷歌发布大模型Gemini 1.5 Pro并意外开源了Gemma等。这一波AI的发展速度令人咋舌。
然而,最让人意想不到的是,在占据着绝对霸主地位的英伟达面前竟有一家初创公司挑战者。
这家名为Groq的初创芯片及模型公司在其官网上号称拥有世界上最快的大模型,比GPT-4快18倍,并且测试中每秒吞吐量能够达到破纪录的500 tokens。
Groq之所以能够实现如此闪电般的速度,得益于自主研发的LPU(语言处理单元),这是一种名为张量流处理器(TSP)的全新处理单元。与英伟达GPU相比,在自然语言处理方面,Groq LPU具备10倍于GPU 的计算速度和推理延迟更低等优势。
“快”成了Groq标志性特点。他们还向各个行业巨头喊话,称要在三年内超越英伟达。
实际上,在这场AI热潮中,“天下苦英伟达久矣”。英伟达GPU芯片价格屡创新高,而Groq的LPU架构可以被视为对其的一种挑战。
因此,有人惊呼Groq将颠覆英伟达,也有意见认为Groq还需要经过一段漫长的道路才能取代英伟达。
不管怎样,Groq的出现不仅是对现有芯片架构和市场格局的挑战,也预示着AI芯片及其支撑大模型发展方向正在发生变化——聚焦于AI推理。
Groq LPU:速度驱动
根据介绍,Groq芯片采用14nm制程,并搭载了230MB大静态随机存储器(SRAM),以确保内存带宽;同时片上内存带宽高达80TB/s。在算力方面, 该芯片整数(8位)计算速度为750 TOPs, 浮点 (16位) 计算速度为188 TFLOPs。
Anyscale 的LLMPerf排行显示,在 Groq LPU 推理引擎上运行 Llama 2 70B 模型时 ,输出 tokens 吞吐量快了18倍, 超过了所有云推理供应商。
根据网友的测试,使用Groq,面对300多个单词的“巨型”prompt(AI模型提示词),在不到一秒钟的时间里就能为一篇期刊论文创建初步大纲和写作计划。此外,Groq还可以实现远程实时的AI对话。
Otherside AI公司首席执行官马特·舒默(Matt Shumer)体验了Groq后称赞其速度快如闪电,并能够在不到一秒钟内生成数百个单词的事实性、引用性答案。
更令人惊讶的是,超过3/4 的时间用于搜索信息,而生成答案只需要几分之一秒。
之所以Groq“快如闪电”,这要归功于LPU。
据官方介绍显示, LPU 推理引擎是一种新型的端到端处理单元系统, 专门为计算密集型应用提供最快速度的推理能力 ,这些应用拥有序列组件 ,比如 AI 语言应用程序(LLM) 。
LPU旨在克服LLM中两个瓶颈:计算密度和内存带宽。
与GPU 和 CPU 相比,在LLM上,LPU 具备更大 的计算能力, 减少了每一个单词所需花费 的计算时间,从而快速生成文本序列。
同时, Groq的LPU 使用 SRAM 处理数据, 而不是使用高带宽内存(HBM)的GPU , 这使其速度比HBM更快约20倍, 也大幅降低了能耗并提升了效率。
GroqChip 独特的架构和时间指令集结合在一起,可以实现对自然语言和其他顺序数据进行理想的顺序处理。
通过消除外部内存瓶颈, LPU 推理引擎可为LLM应用提供高于GPU数个数量级 的性能。此外 ,由于LPU只执行推理计算,所需处理 的数据量远小于模型训练,并且从外部内存读取的数据较少 ,因此相对于GPU来说,功耗更低。
此外 ,LPU芯片设计还实现了多个TSP之间无缝连接,在避免GPU群集中出现瓶颈问题的同时显著提高了可扩展性。
因此,Groq公司声称其LPU所带来的AI推理计算具有革命性。
挑战英伟达在AI推理领域
尽管Groq发出强硬声明,但要“平替”英伟达并非易事。从各方观点来看,Groq芯片在与英伟达相比还有一定的差距。
前Facebook人工智能科学家、阿里技术副总裁贾扬清分析了一笔账,由于Groq内存容量较小,在运行Llama 2 70B模型时需要305张Groq卡,而使用英伟达的H100只需8张卡。
从目前价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,并且能耗成本是10倍。
然而,在超越价格对比之外, Groq LPU 的解决方案仍具有巨大潜力。
根据机器学习算法步骤 ,AI芯片可以划分为训练和推理两种类型。
训练芯片用于构建神经网络模型 ,需要高计算性能和通用性以追求高吞吐率和低功耗。
推理芯片则是对已经训练好的神经网络模型进行运算 ,通过输入新数据获取结果。因此, 推理过程所需时间应尽可能短并且要注重低功耗。
同时也更关注优化用户体验方面。
虽然当前GPU利用其并行计算优势在AI领域取得了明显优势,但由于英伟达GPU的独特架构,英伟达H100等芯片在推理领域所需计算能力远低于训练端,这也为Groq和其他挑战者留下了机会。
因此,在专注于AI推理的Groq LPU中,他们有望挑战英伟达GPU在推理领域的主导地位,并且从测试结果看来, Groq能够提供令人满意的秒级反馈效果。
这种趋势体现了通用芯片与专用芯片之间的差异。随着AI和深度学习技术不断发展 ,对专用芯片需求也日益增长。各种FPGA、ASIC以及其他初创公司开发的AI加速器纷纷涌现,并在其擅长领域内显示出与GPU竞争可能性。
相较于英伟达等通用型AI芯片 ,自研AI芯片被认为更适合科技公司自身AI工作负载需求并且成本较低。
例如AWS就推出了全新自研 AI 芯片 AWS Trainium2, 它可以为生成式 AI 和机器学习训练提供高性能运算, 性能比上一代芯片提高4倍, 另外还可实现65ExaFlops超算性能。
另外,微软也推出了首款定制自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微软的第一款AI芯片,主要应用于大语言模型训练,并预计将在明年初在微软Azure数据中心投入使用。
谷歌云也发布了新版TPU 芯片TPU v5p ,旨在大幅减少训练大型语言模型所需时间。
不论是大厂自研的AI芯片还是像Groq LPU这样专用芯片 ,都为优化特定AI计算任务的性能和成本效益以及减少对英伟达等外部供应商依赖提供了新选择。
作为GPU重要补充,专用芯片为面对紧缺昂贵的GPU芯片问题的企业提供了新途径。
推理聚焦趋势
随着AI大模型快速发展,尤其是Sora和即将发布的GPT-5等需要更强大高效算力支持。但GPU在推理方面存在一些效率不高问题,已经影响到大模型业务发展。
从产业发展趋势来看 ,可以预见 AI 计算负载逐渐从训练端转向推理端 。
摩根士丹利指出,在边缘设备的数据处理、存储和电池续航方面取得了重大改进后,边缘AI这一领域将在2024年迎头赶上。AI行业发展重点也将从“训练”全面转向“推理”。
高通首席执行官Amon表示,芯片制造商们的战场不久后将由“训练”转向“推理”。
他在采访中说:“随着AI模型变得更精简且能够运行于设备上,并专注于推理任务,芯片制造商的主要市场将由‘训练’转向‘推理’ ,也就是应用模型。预计数据中心也会对专门用于已经过训练模型进行推理任务的处理器产生兴趣, 这些都有助于使推理市场规模超过训练市场。”
而英伟达首席财务官Colette Kress 表示,在大模型中,“推理”已占据英伟达数据中心收入的40% 。这也是判断大型模型行业落地前景的重要信号。
事实上,各巨头公司纷纷表明他们正致力于该领域。
Meta即将发布自研 AI 推理芯片 Artemis ,预计该公司可在今年内完成其芯片部署,与英伟达GPU协同提供算力。
而英伟达也通过增强推理能力来巩固其在通用GPU市场的地位。下一代芯片H200相对于H100进行了存储器HBM的升级,以提高芯片在推理环节中的效率。
此外,随着各大科技巨头和芯片设计独角兽公司纷纷研发更加高效、部分取代GPU的AI芯片 ,英伟达也意识到这一点并建立起了定制芯片业务部门。
在目前AI芯片供不应求的情况下 ,GPU增长势头暂时不会放缓。但随着AI发展趋势迅速变化,英伟达很可能无法永远保持王者地位 ,同时Groq绝非唯一挑战者。