阿里达摩院AI预训练模型M6参数规模破10万亿

资讯 3年前

1.34K

11月8日消息，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。同时，M6做到了业内极致的低碳高效，使用512块GPU在10天内即训练出具有可用水平的10万亿模型

11月8日消息，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。同时，M6做到了业内极致的低碳高效，使用512块GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT－3，M6实现同等参数规模，能耗为其1％。

超越谷歌微软，阿里达摩院AI预训练模型M6参数规模破10万亿

【什么是超大规模预训练模型】

目前，人工智能正迅速普及并应用到人们的日常生活，但仔细观察会发现，这些技术主要集中在“感知层面”，比如听觉、视觉等。但需要外部知识、逻辑推理的“认知层面”，人工智能尚处于初级阶段。

“认知智能”被认为是下一代人工智能的关键性突破。而超大规模预训练模型则被认为是认知智能的基础设施。

当前，企业应用AI技术面临前期投入大、开发时间长等痛点，AI技术高昂的使用门槛将绝大多数企业拒之门外。Gartner的研究报告显示，37％的企业已经或即将部署AI模型，但仍有大量中小企业未享受到人工智能技术带来的利好。大规模预训练模型的出现或将彻底改变人工智能的应用现状。

大规模预训练模型基于复杂的预训练目标和庞大的模型参数，将丰富的知识存储到大量参数的隐式编码中，使其能够完成多种下游任务，即便是新任务，也能够通过动态学习来完成。

借助大规模预训练模型，企业应用AI技术的前期投入将大幅下降，其不再需要前期就投入大量资金和时间研发定制化模型。

2020年8月，GPT－3模型的面世可谓人类AI史的里程碑事件。GPT－3是美国非盈利机构OpenAI发布的GPT第三代模型，被誉为“最接近通用人工智能”的模型。GPT－3不仅支持多种不同类型的任务，包括改语法错误、写文章（写诗）、聊天、算数、答题、翻译等，还能够通过小样本动态学习，解决从未遇到过的任务，从而具备成为通用解决方案的能力。

【阿里达摩院的超大规模多模态预训练模型M6】

鉴于大规模预训练模型的强大与高效，国内头部科研机构如阿里、华为、智源研究院也都先后发布了自研的大规模预训练模型。

其中，M6是由阿里达摩院联合清华大学研发，中国首个万亿参数的超大规模多模态预训练模型。

超越谷歌微软，阿里达摩院AI预训练模型M6参数规模破10万亿