国际巨头角逐AI，谁能触及世界之巅？

资讯 3年前

1.05K

想感受最新的科技,只需关注IT领域就够了,因为这里的新技术迭代极快,几乎每天都有创新。而在IT领域,当前最炙手可热的就是人工智能,它正在引领着我们一步步走向“科幻电影”般的未来。国际巨头角逐巨量模型就在本周,微软和英伟达联合发布了Megatron-Turing自然语言生成模型(MT-NLG)

人工智能,它正在引领着我们一步步走向“科幻电影”般的未来。

国际巨头角逐巨量模型

就在本周,微软和英伟达联合发布了Megatron-Turing自然语言生成模型(MT-NLG)。其包含5300亿个参数,成为了英文领域最强的巨量模型。

而在两周前,浪潮发布了人工智能巨量模型“源1．0”,它则是中文领域最强的巨量模型。

他们二者都代表了行业内最先进的人工智能巨量模型,也让我们看到国内企业浪潮与微软、英伟达等巨头站在了同一起跑线上。就训练难度而言,中文模型源1．0显然更具挑战。

从OpenAI的GPT-3、到浪潮的源1．0,再到微软和英伟达联合发布Megatron-Turing,可以看到,众多IT巨头们都开始将战略重点转移到角逐人工智能巨量模型领域了。

现在的人工智能模型非常多,几乎所有互联网企业都在做,在搜索引擎上搜索“AI模型”,会有超过3270万条相关结果,足见其火热程度。

那么,为什么很多IT巨头会花费大量精力研究巨量模型呢?

答案很简单,还不是因为一般AI模型“不靠谱”!

AI应用,依然挑战满满

现在很多服务领域的客服系统都用“AI机器人”替代人工了,美其名曰智能化降低运营成本。但实际效果却并没有那么理想。

我们做个简单的测试,在电子商务平台上问客服一些简单问题,“AI”会通过关键词搜索形式来帮你“解答”。如果问题稍微复杂,那么AI就无法理解用户的意思,出现的结果完全就是风马牛不相及,此时则还需人工来受理。这其实就是模型参数不足所造成的。

并且,当前互联网等企业也面临着严重的模型碎片化问题,企业各自为政针对不同领域都训练出了很多小模型,但其真正实战效果却往往仅有最基础的水平。

所以当前亟需的是有一定通用性并且基于海量数据训练的巨量模型,只有这样它才能足够聪明。如果用读书来比喻的话,小模型可能仅有小学生水平,而巨量模型则早已具备教授的知识量了。

源1．0,最强大的中文巨量模型

在巨量模型领域,我们看到很多都是来自国外的模型,以中文为核心的模型少之又少。正如尼采所说,“谁也不能为你建造一座你必须踏着它渡过生命之河的桥,除你自己之外没有人能这么做。”

无论是学术界还是产业界,都需要拥有符合我们国人习惯的中文巨量模型,才能真正让AI实现落地。

正如前文所述,浪潮人工智能研究院发布的全球最大规模人工智能中文巨量模型“源1．0”,再次刷新了多项记录,其单体模型参数量达到了惊人的2457亿。

这个量级大概是个什么概念呢?

当前的“网红”语言模型当属 GPT-3,其在发布之时极具里程碑意义,它的参数量是1750亿个,拥有570GB的英文语料库。而浪潮的源1．0单体模型参数量则比GPT-3还高40%,训练采用的中文数据集达到了5000GB,它总共阅读了大约 2000 亿词,是全球最大的中文数据集,在AI领域也绝对属于巨量型选手。

如果说微软联合英伟达5300亿个参数的Megatron-Turing是业界最大的话,那么源1．0则是中文界巨量模型的魁首。

我们来举个例子,假设人一个月能读十本书,一年读一百本书,读50年,一生所读不过5000本。一本书如果20万字的话,加起来也只有10亿字。源1．0共阅读了大约2000亿词,假如人一年读100本20万字的书,则需要一万年才能读完这2000亿词。

没错,就是一万年,注意这可不是“大话西游”哟!

据了解,源1．0大模型共4095PD(PetaFlop/s-day)的计算量,获得高达2457亿的参数量;相对于GPT-3消耗3640PD计算量得到1750亿参数,源1．0大模型计算效率大幅提升。

而这些计算量的支撑,则是海量的浪潮服务器。众所周知,浪潮AI服务器市占率已位居全球第一,并累计获得56个MLPerf全球AI基准测试冠军,在人工智能领域的专利方面贡献量也位居中国前列。浪潮在AI推理、训练方面能力绝对处于世界领先级。

实战测试,AI水平拿下多个第一

在自然语言理解方面,由于分词方式不同、同一词组不同歧义以及新词汇等方面挑战,所以中文训练的难度更高。

例如分词难点:中国科学技术大学;中国科学技术大学;中国科学技术大学。这三种不同的分词形式,表达的意思有着天壤之别。这还仅仅是其中之一。

因此可以说训练中文NPL要比英文难很多,源1．0的训练难度要比同量级英文模型难度更高。

空谈理论并不务实,只有真正跑起来测试才见真知。源1．0的水平到底如何呢?

其实,它已经刷新了权威中文语言理解测评基准CLUE的零样本学习和小样本学习2项榜单榜首。

zero-shot零样本学习和Few-shot learning 小样本学习在是最能衡量巨量模型智能程度的两项测试,在zero-shot榜单中,源1．0以超越第二名18．3%的绝对优势遥遥领先,在文献分类(CSLDCP)、TNEWS(新闻分类),商品分类(IFLYTEKF)、OCNLIF(原生中文自然语言推理)、成语完型填空(CHIDF)、名词代词关系(CLUEWSCF)6项任务中获得冠军,甚至在成语阅读理解填空(CHIDF)项目中超越人类的水平,成为最强人工智能。