说不尽的“百模”大战

资讯 1年前
1.64K
说不尽的“百模”大战 说不尽的“百模”大战 说不尽的“百模”大战

今年以来,我国大模型产业驶入“百模”大战时代,赛道热度空前,大战愈演愈烈。在本月初举行的2023全球数字经济大会人工智能高峰论坛上,北京市经济和信息化局党组书记、局长姜广智表示,现在全国已有80余个大模型公开发布。

“百模”

“百模”实则大模型产业领域中各家企业发布的大模型,目前,大模型及其产品主要分为三类。第一类是通用大模型,如OpenAI的ChatGPT、百度的‘文心一言’、科大讯飞的‘星火’等都属于通用大模型;第二类是行业大模型;第三类是基于通用大模型或行业大模型的应用型服务。目前已经发布的产品大多集中在第一类和第二类。

从全球已经发布的大模型分布来看,中美两国数量合计占全球总数的超 80%。有专家披露,据不完全统计,目前中国 10 亿参数规模以上的大模型已发布 79 个。那么,国内又有哪些大模型?

华为:盘古大模型

7月7日-9日,盘古大模型3.0在华为开发者大会2023上正式发布,由 5+N+X 三层架构组成。

L0 基础大模型:包含五个基础大模型:中文语言(NLP)大模型、视觉(CV)大模型、多模态大模型、科学计算大模型和图网络(Graph)大模型。

L1 行业大模型:涵盖N 个行业大模型,已推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。

L2 场景模型:为客户提供更多细化场景,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。例如基于气象大模型的短临气象预报、台风预测等场景模型;基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型;基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。

截至目前,盘古大模型已深入金融、制造、政务、电力、煤矿、医疗、铁路等 10 多个行业,支撑起 400 多个 AI 业务场景的应用落地。

百度:文心一言

2月7日,百度正式宣布推出文心一言(ERNIE Bot),文心一言是基于文心大模型技术推出的生成式对话产品,底层技术基础是文心大模型,底层逻辑是通过百度智能云提供服务,吸引企业和机构客户使用API和基础设施,共同搭建AI模型、开发应用,实现产业AI普惠。

文心大模型包括NLP大模型、CV大模型、跨模态大模型、生物计算大模型、行业大模型。目前,文心大模型已经迭代至3.5版本,与3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%。

据百度官方表示,文心一言大模型的训练数据包括了万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。

腾讯:混元大模型

基于腾讯强大的底层算力和低成本的高速网络基础设施,2022 年底腾讯发布了低成本、可落地的NLP万亿大模型——混元(HunYuan)AI 大模型。

混元AI大模型采用腾讯太极机器学习平台自研的训练框架AngelPTM,相比业界主流的解决方案,太极AngelPTM单机可容纳的模型可达55B,20个节点(A100-40Gx8)可容纳万亿规模模型,节省45%训练资源,并在此基础上训练速度提升1倍。

在模型层,混元大模型完整覆盖 NLP 大模型、 CV 大模型、多模态大模型、文生图大模型及众多行业、领域、任务模型。其中,HunYuan-NLP 1T 的模型能力在自然语言理解任务榜单 CLUE 中登顶。

在产业化方面,混元先后支持了包括微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务,通过 NLP、CV、跨模态等 AI 大模型,不仅为业务创造了增量价值而且降低了使用成本。特别是其在广告内容理解、行业特征挖掘、文案创意生成等方面的应用,在为腾讯广告带来大幅 GMV 提升的同时,也初步验证了大模型的商业化潜力。

阿里:通义千问

2022年9月,在阿里巴巴达摩院主办的世界人工智能大会“大规模预训练模型”主题论坛上,达摩院副院长周靖人发布阿里巴巴“通义”大模型系列,并宣布相关核心模型向全球开发者开源开放。

通义大模型打造了业界首个AI(人工智能)统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。以统一底座为基础,达摩院构建了层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。

目前,通义大模型系列已在超过200个场景中提供服务,实现了2%~10%的应用效果提升。典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。

京东:言犀大模型

7月13日,京东言犀大模型在2023京东全球科技探索者大会暨京东云峰会上推出。与通用大模型相比,灵犀大模型融合70%通用数据与30%数智供应链原生数据,具有“更高产业属性、更强泛化能力、更多安全保障”的优势。

同时,京东还推出了一套大模型的完整工具,包括支撑大模型研发的基础设施——言犀AI开发计算平台、向量数据库、混合多云操作系统云舰、高性能存储平台云海、软硬一体虚拟化引擎京刚等核心产品。

该模型的落地应用路线图“125”计划也已公布,包括一个平台、两个领域和五个应用。其中,一个平台为ChatJD智能人机对话平台,两个领域为零售和金融,五个应用则包括内容生成、人机对话、用户意图理解、信息抽取和情感分类。

360:360智脑大模型

6月13日,360集团正式召开“360智脑大模型”应用发布会,发布认知型通用大模型“360智脑4.0”,并宣布360智脑已经接入360旗下产品“全家桶”中。

据介绍,本次发布的“智脑大模型”已经具备四大核心能力,包括文字处理能力、图像处理能力、语音处理能力以及视频处理能力,可实现文生文、文生图、文生表、图生图、图生文、视频理解等功能。

360选择了大而全路线,对标微软的全家桶。当前,360智脑已具备生成与创作、多轮对话、代码能力、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多模态、翻译等十大核心能力,维度涵盖数百项细分功能。

科大讯飞:星火认知大模型

5月6日,科大讯飞星火认知大模型正式发布,涵盖了文本生成、语言理解、知识问答、逻辑推理等七项核心能力,并持续迭代于6月9日再次升级发布星火认知大模型V1.5。

目前,科大讯飞围绕星火认知大模型,以一平台 + 多赛道的“1+N”模式,将业务范围延展到包括开放平台、智慧教育、智慧医疗、智慧城市、运营商在内的多个领域。其中,“1”是指以通用认知智能大模型算法研发及高效训练底座平台,“N”则是针对于多个行业领域的专用大模型版本,其中,包含教育、医疗、汽车、人机交互、办公、翻译、工业等。

所有产品都值得用大模型重做一遍

“所有产品都值得用大模型重做一遍。”在2023年阿里云峰会上,阿里巴巴集团董事会主席兼CEO张勇说道。

放到应用层面来理解,玩家都期待借着这个风口,把自家产品包装一下再重新推广出去。所以,目前各家的大模型都与本身业务类型相关。这也就说明,目前国内的“百模”大战,大模型的内卷仍是互联网企业主流业务的竞争。

小结:

大模型产业是未来科技竞争的关键较量之一。有些专家认为,聚焦细分领域有可能让成本降低,让大模型在领域落地和成本优化方面进展更快才能真正普惠更多用户。

有些专家对此持相反观点,认为:细分行业只存在于“中模型”,不存在于”大模型“,只有覆盖多个行业、通用才叫大模型,毕竟“百模大战”最终拼的是场景落地能力。

如何率先突围,仍然需要时间的检验。

       原文标题 : 资本 | 说不尽的“百模”大战

© 版权声明

相关文章