言犀大模型,云计算竞争中的“泥腿子”
模型竞争持续了半年,京东虽然迟到却未缺席。 7月13日上午,京东在2023京东全球科技探索者大会暨京东云峰会上,正式发布京东言犀大模型,同时发布言犀AI开发计算平台。该平台已经启动预约注册,预计8月正式上线
模型竞争持续了半年,京东虽然迟到却未缺席。
7月13日上午,京东在2023京东全球科技探索者大会暨京东云峰会上,正式发布京东言犀大模型,同时发布言犀AI开发计算平台。该平台已经启动预约注册,预计8月正式上线。
京东集团技术委员会主席曹鹏表示,京东灵犀大模型源于产业、服务产业,具有更高的产业属性。
国内头部云厂商中,于大模型领域先行占位者如百度、阿里已经在模型能力上卷过一轮,为避免产品服务同质化,京东将定位放在“产业”与“专精”以求差异性。
作为模型竞争的另类参与者,京东不会做大包大揽的“大生态”,而是更强调落地应用与产业场景,承接京东云以往的定位“更懂产业的云”。
产业大模型,是京东为自己“量身定做”的服务模式,避开通用能力的横向比较,聚焦于专项领域的模型处理能力。
数据“专项专练”
大模型竞争走入深水区,数据的重要性越来越突出。
数据规模与质量都会影响模型最终呈现效果,故而当下企业和研究机构都在积极投资于数据收集、数据清洗和数据标注,以获取更好的数据集来训练其大型模型,作为竞争优势。
数据集足够优质且有代表性,就能训练出更专精的产业大模型。
许多公司在试用 ChatGPT 和其他大模型时,会发现它们用清晰语言表达复杂想法的能力非常出色,但无法响应有关专有内容或知识的提示或问题。因为训练大模型的数据普遍来自互联网公开资料,缺乏对特定领域的深入挖掘。
相比之下,产业大模型的训练数据更加专注于特定领域。这些更准确、一致和具有产业代表性的标注信息,能让大模型学习到适配相应领域的语言规律,同时减少模型学习到错误模式的风险,提高模型的精度和可靠性。
探索者大会上,京东强调,作为一家新型实体企业,自身发展就来自产业场景历练,拥有包括零售、物流、科技、健康、工业、产发等丰富的产业布局。
这为京东积累下每年数百亿条优质交互数据,训练言犀大模型的数据库,就由70%通用数据和30%供应链原生数据组成。
用自家数据训练自家模型,京东的优势就是京东言犀大模型的优势,这是京东想展现给外界的逻辑。
有知情人士提到,京东所有事业部都在配合模型训练,并提出自己的需求,其中京东零售几乎交出了所有数据。
京东在电商领域经营多年,且一直保持的头部的体量与影响力,其完整的商品产销与售后数据,都是训练大模型最好的“养料”。京东可以借用大模型研发搭售商品,辅助商家完成营销物料准备,或者制定组合策略。
京东介绍,在电商领域,京东大模型在AIGC与内容营销的配合上独具优势。从一张商品图出发,它能够理解商品特征,快速生成电商运营需要的商品主图、营销海报图和商详图等,满足商家快速开店和营销的需求。人工智能可以让每套图的制作成本能降低90%,制作周期也从7天缩短到半天。
这些生成质量、效率上的表现,都来源于数据“专项专练”。通俗来讲,就是做电商的最懂电商,京东大模型能为在电商领域有生产力需求的客户,提供最具针对性的服务。
但略显尴尬的是,目前京东所描述的,AIGC在零售领域的应用仅限于文生文、文生图,跨模态和多模态能力相对来说并不成熟。
技术迭代到现在,多模态处理能力几乎是头部大模型产品的标配,京东坐拥足量优质数据,在技术呈现上,却还显得相对原始。
产业大模型,一种“量体裁衣”
各家都在追求以模型通用能力为基础,进而服务千行百业之时,单独强调产业场景的特殊针对性,难免会让人觉得有“避重就轻”之嫌。
产业大模型需要兼顾通用能力,这是提供模型服务的前提。
以最近大热的BloombergGPT(彭博GPT)为例,同样是聚焦与特定领域、具体场景,在官方发布的论文中,对BloombergGPT的评估包含了两部分,金融领域评估与通用领域评估。
BloombergGPT基于Bloomberg终端(Bloomberg Terminal)的海量金融数据进行训练,数据涵盖了各种金融文档,如新闻、报告、评论、财务报表等。与京东数据“专项专练”的产业大模型训练思路颇为一致。
文章指出,在金融领域任务上,BloombergGPT综合表现最好,同时在通用任务上,BloombergGPT的综合得分同样优于相同参数量级的其他模型,甚至在某些任务上的得分要高于参数量更大的模型。即BloombergGPT在金融领域表现突出的同时,并没有以牺牲模型通用能力为代价。
更直白的说,如果一个大模型缺乏通用能力,可能会限制模型应用范围的灵活性。通用大模型通常能够处理各种类型的语言任务,并从广泛的语料库中学习到多样性的语言模式。作为对比,专业大模型的泛化能力可能受到限制,无法适应多样的应用场景和任务。
所以大多数厂商会选择在通用大模型的基础之上,进行特定领域的训练和优化开发产业大模型,使其具备更深入的行业知识和理解,提供更准确的内容生成。同时厂商也会重点指出训练模型时,会兼顾通用与专业。
而反观京东对言犀大模型差异化定位的描述,并未强调其通用模型能力,着重强调对特定场景、特定行业问题的解决力。
京东表示,不会向千行百业提供通用大模型,通用性不是目的,原生数据集所带来的能力,对零售、健康、物流、金融这几个特定行业的深入理解,构成了言犀大模型的差异。
大模型华山论剑,当各家大厂都在以技术能力展示其功底如何深厚之时,京东却话锋一转,说自己身经百战,对手众多皆是一流、京东大模型实力必然也是个中翘楚。
这种“泥腿子”路数似乎对应着京东一直以来的“江湖味”作风,没有绝对实力和话语权,又不得缺席竞争,就以江湖经验标榜自己不落人后。
如此看来,不做通用,反复重申自己“产业大模型”的定位,其实是一种更适合其当下发展路线的“量体裁衣”:长处不在技术之时,宣传场景更有优势。
只是这个定位也非京东独家。
百度、阿里这类在通用大模型之路上狂奔多时的企业,正不断推出行业应用、产业结合方案。同样入局稍晚的腾讯、华为也在近期发布了自己的行业大模型。具体场景、特殊领域的模型能力的确更符合应用逻辑,也更容易跑通商业模式。
无论定位如何,宣传侧重怎样,客户的选用最终还是要看真实产品表现。虽然打出了产业的旗号,京东目前的宣传卖点还在侧重于智能客服和智能导购这些相对初级的应用场景,恐怕离“产业”还有相当一段距离。
先革自己的命
从整体战略布局来看,京东大模型的推进思路也略有不同。
据官方解释,言犀大模型的落地分3步走:第一步,基于内部实践构建通用大模型;第二步,在零售、金融、健康、物流等京东内部高复杂场景大规模锤炼,融合行业解决方案对外输出;第三步,针对严肃商业场景将大模型能力对外开放。
模型训练非常依赖实时数据反馈,故而多数厂商会选择尽快公开投入测试,以求在实用中收集真实数据,对模型进行调整。
按照京东的提法,开发大模型对外服务是下一个阶段的目标,当下先得着力满足自身业务需求才行。
对此,京东内部技术人员的解释是,因为京东目前还没有完全完成模型对内部场景的接入。
虽然京东集团各大事业部都在支持模型训练,希望尽快接入,但不同业务对模型的需求差异较大,满足所有内部场景需求在现阶段对京东来说压力不小。
“比如零售业务需要模型做推荐和风控、研发团队希望模型帮助提升编码效率,都得做针对性调整。我们会逐步开放一些在内部场景磨炼成熟了的能力,今年下半年还是重点在内部的打磨。”
可以把这种先拿自家业务体系做实验,再对外售卖成熟服务的思路视为一种推己及人。京东旗下业务涵盖面广,“先革自己的命”做出一个大模型应用的范本,也是对自身产品能力的最好证明。
只不过就目前释放出的消息来看,由内及外更像是产品还未打磨完整,出于控制风险和成本的考虑,把测试范围先限制在内部,以保证家丑不外扬。
如前文提到,京东不对外开放其通用大模型,而当下内部多场景的协调不顺,似乎已经在暗示一些通用性的不足,拖慢了产品推进的脚步。
原文标题 : 言犀大模型,云计算竞争中的“泥腿子”