陈伟:AI语音市场要靠3.0技术撬动
前言:想要实现全人类之间的顺畅交流,一直都是一个遥不可及的美好期望,而人工智能的飞速发展,让我们看到了这一希望。国内刚需明显提升在中国,从事同传工作的,大多数是英语专业背景,精通全领域是充分而非必要条件
前言:
想要实现全人类之间的顺畅交流,一直都是一个遥不可及的美好期望,而人工智能的飞速发展,让我们看到了这一希望。
国内刚需明显提升
在中国,从事同传工作的,大多数是英语专业背景,精通全领域是充分而非必要条件。而面对涉及医疗、数学和物理等领域的会议时,同传人员并不能很好地将这些相关术语准地翻译。
当学术盲点变成了行业痛点,以语音智能见长的科技公司便主动出击,抓住了同声传译这一细分市场的机遇,迭代到3.0版本的搜狗同传便是向这一细分市场布局的开端。
机器同传的产品价值,主要体现在其致力于解决跨语言交流、跨语言信息获取和语言表达的电子化记录等障碍。若要真正实现这三点,不能单纯地把语音识别和机器翻译做嫁接,而需要一套完整的有机系统。
语境引擎=多模态+知识图谱
去年12月,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。
最新发布的搜狗同传3.0,内核进化成为了语境引擎。除了“语音信息+OCR”的结合方式,升级后的产品,最大亮点是在“能听会看”的多模态基础上,注入了思考和推理能力,背后靠的是知识图谱的加持。
多模态同传,即AI获取信息的渠道不再是语音,还包含图像等其他内容。这种多模态的交互方式是搜狗一直坚信的趋势,也是与人最自然的一种交流方式。
“会看”,意味着同传首次具备了视觉能力。“能理解会推理”,则意味着同传具备了与人“共情”的能力。
基于语境引擎开发的搜狗同传3.0为演讲者构建了个性化的认知语境,能够跟随演讲者一起“思考”,无疑是AI同传领域的又一大技术创新。
可以像人类一样,从语音和图像中获取信息,不仅会听,还能同时看图、查资料,从而提高了同声传译的准确性,在AI同传落地应用中属首创。
尤其是面对专有名词、专业术语较多的场景,相比传统只依赖语音的技术,针对PPT内容将翻译的正确率提升了40.3%。
陈伟认为,多模态技术是未来人机交互的发展方向。从搜狗同传的技术升级之路中,我们也可以看出搜狗下一步的计划。
据陈伟介绍,搜狗同传3.0相对于上一代产品主要有三方面能力的提升:
更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。
更加专业,此前的AI同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现场PPT内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。
搜狗同传的技术迭代之路
2016年11月推出的搜狗同传1.0通用语音同传是首个商用机器同传产品,实现了语音同传的功能。
2018年,搜狗同传2.0集成TTS,首次实现语音到语音同传,并可根据用户语料实时定制,同时它还用上了首个英译中同传引擎。
到3.0,搜狗同传已经是一款业内首创的多模态+自主学习的同传产品,能听、会看,能理解、会推理是它的特点,同时增加了实时捕捉PPT内容的功能。
搜狗1.0时,输入仅是语音,2.0开始做语音+个性化,以及说话人的语境背景输入;3.0加入了知识图谱,把语音、视觉等信息作为语音识别的输入。现在,业内技术普遍介于1.0和2.0之间,而搜狗依靠图谱方式,已经率先进入3.0时代。
2.0时代,搜狗同传会首先对文本进行规则化,让文本变得流利,丢弃一些语义词和停顿词等,但会遇到延时很大的问题。
在3.0时代,搜狗同传加入了语义单元,识别判断一句话为独立的一个单元,系统可以在讲话者说话的同时可以立即上屏,降低同传系统的延迟。
机器翻译与人工之间的差距在拉近
机器翻译的历史可能比大多数人想象中都要久远,1954年初,乔治城大学的实验的一台电脑成功将四十多条俄文句子自动翻译成英文,这一事件成为机器翻译史中的一个里程碑,标志着现代机器翻译的开端。
60多年过去了,机器翻译产品已经走进每个人的日常生活,在大型会议等场景下被广泛采用。
虽然翻译效果仍有待提高,但机器翻译已经成为提高翻译效率不可或缺的工具,并催生了一大批从事AI翻译研究的企业,国内有搜狗、腾讯、科大讯飞等,国外有谷歌、微软等。
翻译领域有些工作是有重复性的,包括同传领域,机器在某些方面会优于人工,比如知识面、领域知识的拓展性上,机器比真人的知识面更广阔,并能够快速查询背后海量的知识体系,这比真人在某些领域的翻译上的准确率更高。
在支持了上千场会议之后,他们发现从成本上来看,机器翻译的成本一定是低于人工的,且边际成本会随着使用量增加越来越低。
与人相比,机器翻译成本更低,需要支持的设备也更少,一台笔记本,一条视频线、一条音频线,连上就可以工作。
机器同传在未来的地位
从机器同传的流程来看,当机器视觉捕捉到核心关键词之后,会根据搜狗的知识图谱技术,把相关的词汇以及专业领域相关的词语拓展出来,作为语音识别和翻译的加强。
未来,机器同传可向记者采访、跨国办公会议、中英文视频直播、字幕翻译等场景延展。这些应用场景最主要的挑战,是怎么保证机器同传的稳定效果,考验的是采集设备、网络环境、识别能力等。
未来面向人和机器交互过程中,一定是多模态的,搜狗提倡的技术主张,使机器同传和同类产品拉开了一代之差。他们还是以同传为主,搜狗已经从语音跨到了多模态,并把对于知识和语音的理解放进去,使同传开始具备一定的认知能力。
而搜狗在AI语音商业化的进程,最终的指向还是消费者端。未来各种各样的场合都可能用到搜狗同传的技术,通过同传打磨的能力也可以反向用于C端产品。
一直以来,人工智能技术只能在展示在实验室中,随着深度学习等技术的研究成熟,人工智能技术加持的产品也逐渐开始落地。
多模态技术未来发展
很多公司都意识到多模态技术重要性,并将研究成果落地到各种应用中,比如腾讯、优酷等视频网站平台,快手等短视频平台都将多模态技术应用于内容理解上,在获取用户和加强与用户的互动交流上起到了重要作用。
目前关于多模态的研究课题还是要从产品和实际需求倒推功能,这涉及到异构数据融合的问题。
多模态表达,在语义上如何进行对齐,提取同一需求的多模态特征,如何更好地跨越语义的鸿沟,异构数据如何融合,都是多模态技术会遇到的问题。
随着精度的逐步提高,搜狗同传所采用的AI技术,未来还将有更广阔的的应用空间,赋予我们更多的可能性。比如,实时私人翻译乃至文学作品的译制,可以让我们足不出户,享受第一手国际作品的字幕体验。
而在跨国界、跨领域等项目合作方面,逐渐实现无缝对接,能够显著提高整体的工程协作效率。
结尾:
当然必须要承认,无论是搜狗同传还是其他玩家,大家目前距离顶级同传的水准还有很长的路要走,目前的机器同传能力和顶级人工同传相比,仍存在不小的差距。