Common Voice扩大支援简体中文
Mozilla 开始收集大陆地区汉语语音资料,更进一步充实其公开语音资料集,现已收集27种不同语言的录音音档,并将再扩大支援72种语言。
Mozilla 开始收集大陆地区汉语语音资料,更进一步充实其公开语音资料集,现已收集27种不同语言的录音音档,并将再扩大支援72种语言。
Common Voice (“同声计划”)是史上最大的开源语音转录文字资料集,其最新释出的资料库囊括来自逾4.2万贡献者以18种语言录制的音档,总长近1,400小时。
开发开源 Firefox 浏览器的非营利组织 Mozilla 宣布,其所推动之最大语音资料募集计划 -- Common Voice 平台已正式支援简体中文。在广大的 Mozilla 社群及语言专家伙伴的辛勤努力下,从现在开始,网友可到 Common Voice 的简中网站录制音档。
语音介面是网际网路未来大势之所趋。车用语音助理、智慧手表、智慧灯泡等,内建语音辨识技术的装置可谓与日俱增。然而,相关技术的创新仍面临重大阻碍 -- 有意打造语音辅助方案的新创公司、研究人员或各种开发者都需取得大量、转录为文字的语音数据,才能训练机器学习的演算法。但现有公开语音资料集的语音资料量与支援语种数都极其有限,而私有的语音资料不但仅掌握在少数几家公司手中,而且费用高昂。
有鉴于此,Mozilla 自2017年6月起展开 Common Voice 计划,希望建立全球化的开源语音语料库,以因应语音介面的发展需求并突破现阶段的市场局限。Mozilla 认为,此类介面不该只把持在少数几家握有语音服务技术的厂商手中,而且,Mozilla 希望能让使用者以自己的语言和熟悉的腔调来吸收和了解资讯。
已收集包括汉语(简中)在内的27种语音资料
Common Voice 在2018年6月开始收集多语语音资料。从那时起,此专案便不断壮大,变得更全球化、更具包容性。在过去10个月间,大批的热血贡献者踊跃响应,已在 Common Voice 网站上发起27种语言音档的收集计划,另外还有高达72种语言的录音计划正在进行中。
最新加入的语言是汉语(简体中文)。现在,世界各地的网友都可到网站捐声音,或验证其他人录音的音档。
Mozilla 开源语音募集计划 Common Voice 扩大支援简体中文。
语音贡献者还可选择保留专案纪录,以掌握自己的录音纪录。此外,他们也可选择提供人口特征资讯,以协助 Mozilla 改善用以训练语音识别引擎的语音资料。
一如 Common Voice 收集的其他语言资料,Mozilla 对于汉语(简中)的目标是要累积约1万小时之通过验证的音档,因为1万小时的音档量才足以训练出完备的语音辨识系统。除此以外,这还附带另一个好处:所有人都可“同声”一气,共同推动语音辨识技术的进展。无论在上班途中、在公车上、午休时间、在家里,或与亲朋好友齐聚一堂时,不管是透过 voice.mozilla.org 网站或 iOS 应用,只要有手机或电脑,就能捐声音或验证其他人的音档。
Mozilla 开源创新计划总监 George Roter 表示:“就算一个人只录或听几秒钟的音档,但若贡献者多达数十万,加起来的资料量就非常惊人!当更多人都愿意出一份力时,这套语音资料集的价值就能更快提升。”
释出多语语音资料集
Mozilla 将一本初衷、继续充实语音资料集的内涵,使其成为人人可用的公有资源。Mozilla 已于今年二月释出第一批的多语语音资料集,其中共涵盖18种语言的录音音档,包括:英文、法文、德文和华语(正体中文)等广泛通行的语言,以及威尔斯语及卡拜尔语等较为冷门的语言。Common Voice 至今已收集逾4.2万人贡献的录音,总长度约1,400小时,且语音资料量仍持续成长中。
在此资料集释出后,Common Voice 的规模已超越其他同类型的语音资料集,并已将数万人的录音音档及对应文字开放给公众使用(采 CC0 授权)。任何人都可到 Common Voice 网站下载完整的语音资料集。
Mozilla 开源语音募集计划 Common Voice 扩大支援简体中文。
George Roter 进一步表示:“Mozilla 致力于促进更多元创新之语音科技生态系的发展。我们不但希望能自行推出语音技术的产品,也立志倾力支援研究人员及小公司的发展,在建立全球最大公共的多语语音资料集的过程中,我们很荣幸得到越来越多人的帮助,也很感谢志愿者的热情相挺,让我们成功展开对于简体中文的支持。”