京东产业大模型的几点猜想
导语:细读今年被称为“中国人工智能最高奖”的吴文俊奖的获奖名单,颇有深意。虽然各大高校、科研机构还是在获奖名单中占据多数,但企业获奖的数量也在不断增长,如我们熟悉的京东、百度、美团、阿里、科大讯飞等,悉数在列
导语:
细读今年被称为“中国人工智能最高奖”的吴文俊奖的获奖名单,颇有深意。
虽然各大高校、科研机构还是在获奖名单中占据多数,但企业获奖的数量也在不断增长,如我们熟悉的京东、百度、美团、阿里、科大讯飞等,悉数在列。
而他们获奖的项目,有比较明显的应用导向趋势,这说明,AI的落地应用日益受到关注。
企业的优势在于,有大量的场景,积累了精准的数据,可以在解决实际问题中不断历练优化,再泛化成通用能力赋能社会,这对于进入智能化加速普及的今天,有切实的意义。
备受关注的大模型,也成为获奖名单中被关注的焦点,但大模型只是手段,而不是目的。发展产业大模型,其价值仍然是以产业实践中凝聚的数字化能力服务社会和提升行业效率。
可以相信,随着人工智能奇点的到来和应用加速落地,我们的生活将发生一往而不可逆的变革。
第一部分 企业获奖越来越多,折射了什么?
在今年获得吴奖的企业中,京东是较为突出的一个。
京东是唯一同时获得个人和团队两项殊荣的企业,其中,只有三席的“杰出贡献奖”由京东获得一席,这是除了“最高成就奖”之外,可授予个人的最高奖项,反映了京东在AI领域的人才深度和厚度。
相对老牌AI企业,几年前京东在AI领域的声势并不彰显。近年,随着京东的技术转型的全面展开,数智供应链、智能服务、工业互联网平台等一系列产业技术应用逐步为行业所认可。
所以,这次京东摘得个人奖和团队奖各一,其实是反映了有深厚产业场景基础和数字技术能力的新型实体企业,在AI领域厚积薄发的积累优势。
恰好,这次获奖的京东科技智能服务与产品部负责人何晓冬博士,是我的一位很好相处的朋友,所以我也第一时间向他求证了一些问题。
说一句闲话,我喜欢晓冬的原因,大概有二:
1.他讲的技术我听得懂,而且他很耐心,就算我听不懂,他也会讲到我听懂为止,作为一个世界级的科学家,这样的nice是很难得的;
2.他戴手表;
我喜欢戴传统手表的科学家,而非Apple Watch的用户。尤其当我偶尔知道,这只是一块很普通的精工自动机械表,简单可靠,而且是晓冬的父亲在一次购物中得到的赠品的时候,我就觉得他这个人更有意思了,朴实、乐观和坚韧是他的性格。
这也让我想起,《达芬奇密码》里魅力十足的虚构人物——罗伯特.兰登教授,就一直戴一块小时候得到的米老鼠手表。
这次见到晓冬,其中一个原因,是他和他的团队获得了今年吴奖后,我很想和他聊聊这个事。但没有想到,他没怎么谈自己,反而给我科普了一遍京东AI的发展史。以及这次京东获奖的任务型智能对话交互关键技术及大规模产业应用这个课题。
2019年的1月1日,对何晓冬是个重要的日子,这一天是他正式成为IEEE Fellow的日子。更重要的是2018年他告别海外生涯的一个告别礼—— 2018年初他正式接受了京东邀请,从微软雷德蒙研究院的人工智能首席研究员,变成京东的AI业务一位重要负责人,加入彼时尚小但正在壮大的京东AI研发团队。
彼时,京东已经喊出了“技术、技术、技术!”的口号,但外部对于京东在AI方面的能力还没有充分的认知,尽管京东已经在各业务线开始使用AI技术, 但当时很少人会认为京东是一个AI技术的高地。
后来我查了一下,亚马逊有10000多个AI工程师,微软是7000人,谷歌是4000多人,但做出ChatGPT的时候,openAI只有154个人。
所以,AI是否能做成,和人数没有绝对关系,和方向正确与否关系更大。
更重要的是,京东改变了我对AI产业化落地的看法。
以前,大部分AI企业见到我总要诉的苦是——我们的技术水平很高,但企业不理解、用不起来,所以落地难。
晓冬第一次见面就直率的告诉我,这种说法是不对的。
他认为:“我们(团队)虽然不大,但经过努力已经开始盈利了,这对于很多大AI团队都是难以想象的。但核心其实只有一个原因,就是我们力图搞清楚我们能给市场带来什么价值,以及创造这个价值的技术核心点在哪里,然后用我们的技术和工程能力去搞定。而那些脱离了价值锁定的AI研发看上去是很酷,但很难落地。”
相对于其它几家互联网超级平台的AI研发规模,何晓冬的团队规模小但更聚焦,而他们的最初的研发方向也很具体——对内依托京东的用户规模优势,不断的优化智能客服的服务能力,对外把这种能力做成产品服务,应用在诸如市场推广外呼、数字人、智能政务热线等多个商业化场景里。
而这种市场需求来自于企业真实的痛点——即源于解决零售、物流等实体行业大规模客户服务人力不足带来的效率问题。
也就是说,之所以获得吴奖,除了何晓冬带队的京东云言犀(下称“言犀”)团队的出色技术能力之外,也基于京东AI研发的务实和路径正确,他们选择了为现实中真实世界复杂且深度的问题去求解——而这,正是看似默默无闻的京东AI在短短几年内,就得到学界和产业界如此高度的认可的原因。
第二部分 解决真实世界的难题
根据人工智能算法、算力和数据三要素,企业优先发展的,要么是结构性数据比较多的应用落点,要么是市场上解决方案较少的新领域。
如果这样排列,那客服场景应该不在首列,因为目前NLP(自然语言处理)是AI最成熟的领域之一,各大企业基本都有各式各样的智能客服业务。
在一个群雄盘踞、成熟产品迭出的领域搞创新,是需要格外的勇气的。
但是,京东还是选择了智能服务场景,理由也很简单——业务需要、场景支持。
但做,就要做出新意。
如果仔细推敲这次京东获奖项目的名称,会发现有一个比较特别的词汇——任务型对话。
打个比方,这次震惊消费者的Chat GPT,就不是典型的任务型对话,因为使用者对于对话结果的宽容度很高,甚至可以视为一种娱乐,可以接受各种”胡说八道“;但客服对话,则不同于一般对话场景,所谓的任务型对话,就是需要解决真实世界深度复杂的任务,而且达到很高的满意度。
从优势角度来看,京东服务超5.8亿用户,每年十几亿人次的对话交互服务,既是智能对话交互技术产业落地的前沿阵地,又天生有大量的数据可以作为训练内容。
从挑战来看,自然语言处理是目前AI最成熟的领域之一,要想在强敌环伺之下杀出重围并不是一件简单的问题。
但言犀团队的思路很清晰,把这个复杂系统拆解成了几个核心命题。
其中,首要解决的是高表现力和高可信度的多模态对话生成。
简单来说,就是在智能客服与人类客户对话的过程中,要实时判断对用户的情绪是高兴、愤怒、失望等等,再相应的用适合的、富有表现力而非干巴巴的文字或电子合成音去回答这个问题。
但是单纯从文字和语音是难以完全的分辨客户情绪的,所以还要结合客户的上下文来推测。但这就需要新的算法,因为传统算法生成内容时,对上下文的建模(也就是模型和训练)关联度不足,导致生成的内容缺乏表现力,也不准确。
要从技术维度解释这个问题,需要花费大量的篇幅,所以我只说几点。
首先,针对生成高表现力语音这个问题,言犀团队提出了“基于多颗粒度韵律的增强语音合成技术”,也就是从篇章、句子、字词的不同粒度,准确把握用户的情绪,对应的提高合成语音的韵律丰富度和可控性。
而仅仅针对这个问题,言犀团队提出的语音合成技术,就获得了ACM Multimedia 2021最佳演示奖。
而对生成高质量对话内容至关重要的,还有对于用户意图的理解或预测,简单说就是“听懂人话,猜出意思”。
这里的核心理论支撑,某种程度上来自何晓冬此前的一篇在行业里非常有影响力的论文 ”Hierarchical Attention Networks for Document Classification”,这是一篇谷歌学术引用次数近5000次的论文,即使在世界AI领域也是顶尖的。
但何晓冬谦虚的认为,自己的论文只是解决了部分理论的问题,而团队的勤奋和工程化落地,才是成功的关键。
值得一提的是,这里还有一个隐藏的彩蛋就是,针对对话内容的生成,团队还使用了基于知识融合的预训练语言模型和多模态可控对话文本生成模型,从而提升生成文本的专业度、丰富度。
你可以理解为,这两个模型可以看做是今天大名鼎鼎的ChatGPT的两个子集,但很早就被京东用起来了,而这将对京东以后构建产业大模型有很关键的验证作用。
而从这个问题的解决中淬炼出来的方案,形成了京东智能服务解决方案中的多轮对话决策推理技术,并达到国际领先水平,先后斩获国际竞赛Wikihop、HotpotQA的冠军。
但支撑这一体系的并非仅这一项领先技术。
如果你使用过语音客服,你就会发现,如果你的表达过于口语化、或者有不规律停顿等问题的情况下,会对客服的效果有很大的影响,有时候会使得对话严重偏离场景,这背后是一个人/机话语权的决策问题。
很显然,我们不可能在使用语音客服时,要求每个人都有播音员一样连贯、准确的发音。
而对于这个问题,言犀团队提出了多模态融合的话语权决策技术 (Turn taking),根据实际情况,在瞬息间判断对话是否会中断以及在什么时候AI需要耐心等待用户说完话,又在什么时候需要AI需要及时接过话语权。
可以说,言犀团队正是用”剥洋葱“式的方法,把实际问题拆解成一个个更小的单元,然后在核心算法的突破下创造性的解决工程问题,最终的结果不仅是获得吴文俊奖这样的顶级荣誉,还产生了巨大的产业溢出效应——在这个项目完成的过程中,还完成了授权发明专利17件,软件著作权19项,论文63篇,国际比赛冠军6项;更让团队骄傲的是,产生直接经济价值20亿元。
第三部分 用户云集
现在,智能客服市场竞争激烈之极,但高水平产品并不多。
言犀再次基于“从实体中来,到实体中去”的原则,它把智能客服和京东的其它AI能力组合起来,这些能力都聚焦于以服销一体化为方向,为客户提供用户服务、触达、增长等能力,故此被称为”京东云言犀超级SaaS增长引擎“。
定位在SaaS层,是为了便于部署和符合大多数非数字化原生企业的实际落地环境,因为不是每个企业都有自建的PaaS层能力。
伊利集团是最早引入言犀的智能咨询导购、智能外呼、虚拟主播等服销一体化服务的巨头型企业之一,合作亮点颇多。
例如,伊利曾经测算过,旗下多个奶粉类店铺,接入言犀提供的智能服务后,单店仅一个月便实现人力节约71.06人天,于是,其旗下多个品牌线,如安慕希、巧乐兹、金典等,都持续采用言犀智能外呼覆盖私域加粉、活动营销、意向初筛等众多场景。
而前述的增加语音高表现力的技术,成为言犀首创的“明星真人语音”外呼应用的技术支撑,在行业里引发了一场新的交互式营销潮流,各大企业纷纷尝试。去年他们还推出了多模态数字人,基于智能对话交互能力,发展出多模态数字人交互技术,以SaaS直播以及KA数字员工等模式对外应用。在今年京东618的直播间,有很多就是言犀提供的产品。
在政府服务方向,山西省大同市在言犀的技术支持下,于2021年2月引入京东智能政务热线,在降本增效的同时,还大幅提升了群众的满意度和服务体验。同时,京东智能政务热线还可以针对这对热点问题进行分析、研判,让城市管理者做到未诉先办,防患于未然。
而在金融方向上,以江南农商银行为例,言犀与其合作打造的“江南农商银行VTM数字员工”,是全国第一个能独立、全程办理银行真实交易的数字人,被客户称为“01号数字员工”。
也许读者读到这里会问,这和目前火热的生成式大模型,有什么关联呢?
第四部分 产业大模型正在路上
在回答这个问题前,我们要谈一个价值观的问题。
京东一直有目标,那就是作为“以供应链为基础的技术与服务企业”,京东将用数智化技术连接和优化社会生产、流通、服务的各个环节,降低社会成本、提高社会效率。
这是一切的前提,所以京东一定、也必须会做产业大模型。
但我们注意到,和很多企业、甚至是创业团队,一上来就表示要做千亿、万亿参数的通用大模型相比,资源更为丰富的京东提出的却是“产业大模型”。
也就是说,京东瞄准的不但是大模型具有的广谱的“智能涌现”能力,同时还将其与行业的know-how相结合,针对行业把能力做深,从而为行业创造深度的价值。这和其它企业的路径明显不同,京东对大模型的投入是做好了充分准备的。
我认为,这反而是京东更可能成功并率先的用大模型服务于产业的一个重要判断。
京东拥有零售、物流、健康、工业品等广泛实体业务,具有庞大而又复杂的产业生态,服务数十万商家和超5.8亿消费者,它的AI,是生长在供应链上的产业AI,它的目标,就是解决实际问题再泛化成通用能力赋能社会。
所以笔者猜测,京东的做法,就是聚焦AI的产业价值,先解决实际问题,接受正向或负向的反馈。
为什么要这么做呢,因为要用好产业大模型,都离不开三个具体的场景:
1.有足够清晰的应用落点;
2.有足够规模的预训练数据集;
3.有足够的垂直领域的人才;
也就是说,和通用AI的“算法、算力、数据”三要素略有不同,产业级落地讲的是“数据、人才和场景”。
优质的大模型,需要的不仅仅是数据,而是精炼的、高质量的、蕴含行业know-how的优质产业数据。
对于京东来说,场景和人才都不缺乏,在产业级数据层面更有显著优势。
作为一个高度数据化、超大规模的新型实体企业,京东的数字化程度很高,并且其在供应链的全环节,例如仓储、配送、营销、服务等,都积累了高质量的数据。
所以,笔者认为,京东的选择是最务实的,也是最适配自身优势的。它的做法,会是类似于言犀团队攻克客服场景一样的做法 ——?通过通用数据给大模型带来了基本常识,推理、涌现、表达能力,加上京东自身的专业性数据的引入,在京东内外部真实场景中应用起来,并解决工程上的重要难点,形成数据与应用的飞轮,不断优化大模型的性能。并极度降低行业使用门槛,应用时只需少量的场景数据微调,就可以达成很好的结果,这也是京东这类拥有场景企业的优势。
而后,不断的重复这个过程,把诸多产业问题逐一解决。在这个过程中,有一些数据可以复用,有大量的方法可以复用,这就形成了一个自增强的有效闭环,最终形成具有京东特色、能够解决供应链各领域问题、覆盖多个行业场景的大模型。
这便是京东从已有通用大模型通往产业大模型的路径。而且一出手,就自带针对各行业、领域的解决方案,能够迅速落地。
简单说就是,从上往下做,好看、好听,但容易找不到抓手、脚步虚浮;从下往上做,显得没那么酷,但每一步都是走上坡路,步步踏实,最后才能攀登到一个很高的高度。
京东的产业大模型,就在不远的前方,让我们共同期待。
原文标题 : 京东产业大模型的几点猜想