李彦宏要用AIGC颠覆内容行业

资讯 2年前

1.47K

如何实现“数字人自由”，颠覆内容生产行业？一是通过标准化、平台化，吸引更多用户、企业、行业拥有数字人；二是基于平台打造的生态链服务，降低数字人高门槛、高投入。作者｜杨铭编辑｜刘珊珊1

如何实现“数字人自由”，颠覆内容生产行业？一是通过标准化、平台化，吸引更多用户、企业、行业拥有数字人；二是基于平台打造的生态链服务，降低数字人高门槛、高投入。

作者｜杨铭

编辑｜刘珊珊

1305年，元代画坛宗师黄公望以富春江山水为背景，创造的旷世名作《富春山居图》，誉为“中国十大传世名画”之一。

此画在民间流传甚久，清代顺治年间遭火焚，从此断为长短两卷。前段现收藏于浙江省博物馆，较长后段现藏台北故宫博物院。一幅名画，就这样遗憾断离失散数百年。

AI技术迭代飞跃，让旷世名作“合璧”，再现江南意象成为可能——2022百度世界大会现场，百度利用文心大模型的AIGC能力一秒让《富春山居图》“重生”后，600年前的富春山水进入全国观众眼帘。

与其他习以为常的老照片、老电影、演唱会等AI修复术不同，如果用户在百度App搜索“富春山居图”，每个人都可以根据自己想法“虚拟补全”，创作属于自己的《富春山居图》。

站在技术发展角度，人人都能补全自己心中的《富春山居图》，正是下一代互联网Web3．0最好落地探索——兼具去中心化和交互性理念的Web3．0，能让用户共建、共治的同时分享平台价值。

Web3．0也称Web3，是最近两年加密货币、元宇宙浪潮下共同推动的热门词汇，被公认为互联网下一个时代。资本、互联网企业扎堆进入下，Web3何时能现实快速落地，一直备受业界追问。

答案呼之欲出。从本届百度世界大会来看，除了AI修复旷世名作，一系列AI数字人不同场景落地应用案例，都是基于大众对Web3、数字人自由的未来生活想象图景。

无论是Web概念从祛魅到快速落地，还是数字人内容产业迭代升级，都离不开AIGC赋予的强大生产力。“未来十年，AIGC将颠覆现有内容生产模式。”百度创始人、董事长兼首席执行官李彦宏说。

数字人进化，关键在AIGC

“今天起得太早了，又累又困，我想点杯咖啡呀？”当央视主持人撒贝宁用“十级”粤语点咖啡，度晓晓能秒懂下单吗？

度晓晓是目前大火的百度AI数字人，此前她与龚俊数字人联合演唱的《每分每秒每天》歌曲MV刷屏全网。后来，她又在各种场合表现出惊人的写作、绘画、采访等等“天赋”。

和演唱、写作、绘画相比，度晓晓此次挑战难度翻倍——粤语本就晦涩难懂，撒贝宁个性化提问又极其刁钻，她必须“听到”撒贝宁的话，并快速“理解”字句，实时转换成手语“动作”，并在App上直接点单。

这意味着相比其他数字人，度晓晓需要有更高强度的“大脑”运转，接近真人的情感理解，才能完成流程复杂的工作需求。

毋庸置疑，数字人度晓晓能否完成挑战，取决于她在AI技术上的迭代速度和“学习能力”。

数字人最早可追溯到2007年，以语音合成程序为基础开发的音源库“初音未来”。受限于技术，此后数字人多以二次元形象出现，直到2016年人工智能“绊爱”，才让虚拟主播热潮席卷全球。2021年元宇宙概念大火后，数字人更是吸引无数企业聚焦、资本追逐。

Web3浪潮涌动，数字人被赋予更多意义，从Web2世界里“工具性赋能”辅助角色，跃升为Web3世界不可或缺的基础设施——数字“原住民”。

因此，国内外互联网大厂探索Web3，往往通过数字人“卡位”Web3的试验场和前哨阵地。数字人的市场价值也随之被持续抬高，IDC报告显示，中国AI数字人市场规模呈现高速增长趋势，预计到2026年将达102．4亿元人民币。

想赢得“卡位战”胜利并不容易。技术层面看，大多数字人仅能进行简单决策——大多依靠“2D或3D模型＋实时动作捕捉＋声优配音”模式，无法实现智能化交互，在业界属于2．0阶段，难以顺利实现撒贝宁的“十级粤语”点咖啡挑战。

作为一种继UGC、PGC之后全新的内容生产方式，不断进化的AIGC——顾名思义，即人工智能自动生成内容，成为业界解题思路。

AIGC并非新概念，近年来很多AI虚拟数字人用到了AIGC能力。2015年，国外曾出现两拨基于单点技术把产品迅速做火的AIGC案例，但受限于技术和成本，大多未能推广开来。

行业对AIGC能力的要求，一直在升级之中。最早AIGC仅需要以假乱真，通过既定图片或语音生成风格一致内容，但在Web3时代，数字人用到AIGC，除了基本的近真人需求，还要具有超强的创造力，像人一样学习沟通和工作。

为什么数字人对AIGC能力要求越来越高？

“‘技术＋应用＋发展’三位一体，正在持续提升数字人产业‘天花板’。”市场调研机构IDC就指出，PGC、UGC这样的生产模式，已不适应数字人本身的技术驱动和需求牵引。

从产品技术趋势看，未来数字人将由AI驱动内容生成，多模态AI技术是核心；交互会越来越智能；形象越来越逼真，由拟人到类人到同人，只有AIGC才能实现。

行业应用趋势看，未来几年人类与数字人开始并存；从产业落地趋势看，出行、产业、生活等千行百业正在加速向数字化转型和智能升级——这意味着，对AIGC能力的需求，并不局限在数字人行业，而是应用于各行各业。

效率提升千倍

颠覆现有生产模式

仅就百度世界大会而言，如今百度AIGC能力输出已经可以达到近真人，甚至超越人类水平。

度晓晓能秒懂完成撒贝宁的“刁钻提问”，依靠的是不断进化的AIGC能力——不断汲取海量数据过程中，度晓晓的“自主能力”呈指数级增长，不仅能准确捕捉并判断用户搜索及服务类需求，和用户互动交流更为生动有趣。甚至，她还会反问用户意想不到的问题。

这种有逻辑、有个性的交互、反馈，是度晓晓采用AIGC能力后，与其他数字人的最大不同。

《富春山居图》山水最终“合璧”，背后核心技术也来自AIGC的“自主”修复能力——尽管原画被焚烧部分后人已无法知晓，但在黄公望纪念馆负责人毛传镔看来，“与现存真迹风格一致，光线风格统一，山水脉络和谐，不仅符合原画审美特点，视觉上还同样具有观赏价值”。

真假难辨表现能力输出外，AIGC更重要的是提升内容生产效率，让数字人的落地应用领域越来越广泛、越来越深。

目前，度晓晓已成百度搜索能力重要进化。用户直接在百度App搜索“你好”，即可召唤度晓晓，通过“问一问”4万多名答主快速匹配专业回答，连接科技到用户的最后一公里，进入“人均一个数字人”时代。

另一百度AI数字人希加加，同样会作画、写诗、作曲、说多国语言、还能实时直播。7月21日的大会直播中，她还和撒贝宁搭档，担当AI策划官兼主持人，同时在现场用几十秒完成绘画。

生产效率上，AIGC提升明显。比如，1秒让国宝级名画完美合璧，度晓晓1秒写1篇作文，希加加直播中几秒画一幅画——与人类生产效率相比，这是指数级的提升。

这是李彦宏认为未来十年，AIGC将颠覆现有内容生产模式的重要原因。“可以实现以十分之一的成本，以百倍千倍的生产速度，去生成AI原创内容。”

而AIGC自主学习能力，在李彦宏看来也会创造出有独特价值和独立视角的内容。

的确如此，在AI创作、AI作画、AI作曲、AI剪辑等内容创作领域，外界直观感受到的数字人的生产能力，早已远远超过一般人类。而AI主播、AI创意、AI智能新闻播报等，也在进入应用场景深化之际。

这些都在助推AIGC的进一步进化。根据李彦宏最新判断，AIGC将走过“助手”（辅助人类内容生产）、“协作”（虚实人形态出现，人机共生）、“原创”（AIGC独立完成内容创作）三个发展阶段。

不断进化的度晓晓、希加加们，很大程度上已经表明，百度AIGC能力正从“协作”加速跨入“原创”阶段，助推数字人进入更多元化应用场景，迎来AIGC浪潮时代。

但从业界看，其实大部分AIGC能力输出还处于“助手”或“协作”阶段。

“数字人要用好AIGC能力，做到真假难辨，技术难度非常大，成本非常高，最终导致数字人制造成本较高，生产效率低下。”一位业界人士表示。

AIGC从业人士陈雨恒在接受媒体采访时也提到，AIGC分为两大部分：一是图像侧AI，包括围绕人物角色展开的骨骼动画生成、面部表情生成、动作捕捉等技术；二是逻辑侧AI，包括围绕语言对话展开的语义理解、语言模型、对话机器人等技术。“无论哪一侧，都面临技术、成本门槛问题。”

这方面案例并不少。利用到AIGC能力的柳夜熙，去年10月以来凭借“捉妖”题材短视频爆红，10个月过去才发布19个作品，远远不能满足用户高频需求。英伟达在2021年动用34个3D美术师、15个软件研究人员，做了21个版本的黄仁勋，才呈现出一个真假难辨的“数字人”。

AIGC能力的差异，成为百度领跑数字人产业重要原因。最新数据显示，度晓晓在《2022虚拟数字人商业价值潜力》榜单中排名第一；在更多第三方机构发布的榜单中，依托百度 AI 的全栈能力，百度在数字人综合实力方面排名第一。

AI降低创作门槛，

实现“数字人自由”

百度领跑AIGC能力原因何在？

原因看上去很简单，不管是AI数字人，还是“补全”《富春山居图》，百度AIGC背后的技术支撑，离不开百度搜索引擎海量数据的先天优势（数亿日活）、产业级深度学习平台飞桨和产业级“知识增强”大模型文心的AI综合沉淀能力，并由此带来的创作门槛、创作成本的大幅降低。

2016年，百度打造了中国第一个自主研发、开源开放的产业级深度学习平台飞桨。2019年，基于飞桨，百度开始深耕预训练模型研发，从大规模知识和海量数据中融合学习，打造具备“知识增强”能力的文心大模型。

比如，数字人画画能力，使用的是文心大模型——跨模态图文生成模型ERNIE－ViLG；而人对话能力，使用的是对话生成大模型——文心 PLATO，PLATO有接近真人水平的对话能力，对话效果已经达到世界领先水平。

《富春山居图》合璧，就是文心大模型能力完整体现：其先是学习大量中国山水画，实现从“小白”向“大师”的进阶，再去学习就可以让补全出来的画作与现存真迹风格一致。

这就是“视觉生成大模型＋单样本微调”的技术策略，意味着该模型可以在更多书画文物修复以及普通人书画艺术创作中，发挥重要作用。

AIGC方向外，文心大模型还广泛应用于搜索、信息流、智能音箱等互联网产品，并通过飞桨开源开放平台、百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业，帮助千百行业降本增效以及智能化升级。

这正是百度大脑、飞桨和文心大模型等综合AI技术的核心价值——降低制作成本，实现大规模应用。

在数字人产业，更是帮助百度解决落地难问题的关键——产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高，是当前业界公认的数字人落地难题，也是实现“数字人自由”的最大障碍。

这些问题，归根结底是数字人生产效率、制作成本问题。百度解题思路是，通过AI底层技术支撑和成熟实践，打造了数字人平台“百度智能云曦灵”，让数字人制作成本、生产周期大幅下降。

目前“曦灵”形成了一个“AI数字人家族”，拥有数十万度晓晓这样能力的数字人。最重要的是，普通用户也可以通过“曦灵”快速生成自己的数字人——只需上传一张照片，就能用分钟级生成一个可被AI驱动的2D数字人像，以前需要两三个月时间做出来的3D数字人，现在可以压缩到一两周。并且，这些数字人的AIGC能力非常成熟，ASR（听得清）准确性可达98％以上。

多位业内人士认为，这是实现“数字人自由”的重要方向：一方面通过标准化、平台化，吸引更多用户、企业、行业拥有数字人；另一方面基于平台打造的生态链服务，降低数字人的高门槛、高投入。

这让百度在数字人行业有更大领跑机会。百度“AI数字人家族”原来集中在金融、银行、供应商客户，现在增加到广电、互联网娱乐、传统工业等诸多B端客户，另外C端的需求也越来越多——比如诸多品牌商的虚拟代言人合作需求。

叩门Web3．0

百度体现中国力量

“未来每个企业、每个人都有一个、甚至多个专属的数字人。”2019年4月，李彦宏在百度与浦东银行的数字人合作会上如此表示。

两年过去，伴随B端、C端齐头快跑，更多数字人各种场景的落地应用，这个愿景逐渐变成现实。

这一切，源于百度对AI领域压强式、马拉松式的研发投入。公开数据显示，研发投入方面，2021年百度核心研发费用221亿元，研发投入强度位列中国民营企业500强第一位。

如今，AI早已成为百度引擎之一。飞桨、文心大模型、深度语音系统、百度大脑、度秘、Apollo自动驾驶平台等多个AI相关的技术，都是百度不计成本投入的注脚。

百度由此打下未来元宇宙、Web3时代牢固的基础设施——Web3衍生出的三大基础设施分别是数字人、数字藏品、元宇宙。除了AI数字人，其余两方面百度均基于AI能力有深入布局。

数字藏品是支撑Web3经济体系的核心要素。百度2017年成立区块链技术部门，2022年上线超级链数字产品平台。如今，百度超级链已推出30多个全场景、全行业、全领域解决方案，打造出诸多标杆案例。