AI企业开源助力新基建
3月25日,旷视科技在线上发布旷视AI生产力平台Brain++,同时,也宣布开源新一代AI生产力平台Brain++的核心深度学习框架旷视天元(MegEngine)。紧接着28日,华为在2020年开发者大会中宣布正式开源一款支持端边云全场景的深度学习训练推理框架MindSpore
3月25日,旷视科技在线上发布旷视AI生产力平台Brain++,同时,也宣布开源新一代AI生产力平台Brain++的核心深度学习框架旷视天元(MegEngine)。
紧接着28日,华为在2020年开发者大会中宣布正式开源一款支持端边云全场景的深度学习训练推理框架MindSpore。而在此之前的3月20日,清华大学计算机系图形实验室开源AI框架计图(Jittor),这是由中国科学界开源的首个AI框架。
其实,开源深度学习框架的重要性不言而喻。旷视科技称,在传统深度学习研发中,产品从原型到生产部署往往需要分开设计并调用训练框架和推理框架两种框架,这就导致模型在训练和推理的转换的过程中容易出现不明原因的性能或精度损失,需要开发者手工进行优化,而算法在计算平台部署的时候出现的各种问题也无法追溯。
针对以上问题,开源框架在设计之初就可以很好规避,它不仅可以降低AI开发门槛,还可以提升算法研发效率。
开源意义:技术开放与AI快速落地
那么,什么是开源深度学习框架?
在讲述深度学习框架之前,首先先了解深度学习。
大多数人对于深度学习并不陌生,深度学习即Deep Learning,源于人工神经网络的研究,是机器学习的一个分支,它主要依赖于深度神经元网络,这种深度神经元网络就类似于人类的大脑,其学习过程也与人类极其相似,并且还可以用海量的数据和高级算法来提高自主学习与分析事物特征的能力。
而开源深度学习框架则是在深度学习初始阶段基础之上,由深度学习研究开发者将大量重复代码写成一个框架,然后放到网上让所有其他研究开发者一起使用,主要是为了提高研究开发者的工作效率。
所以,“开源”就意味着开放自己的源代码给别人查阅和使用,开发者可以将开源框架用在任何平台,任何领域里。例如,如果有图像数据,就可以将开源框架用在图像识别领域,如果有语音数据就可以将开源框架用在语音识别里等等。对于使用者而言,开源框架即拿即用。
早前,百度高级副总裁、AI技术平台体系总负责人王海峰就表示:“开源、开放对于人工智能时代至关重要。首先,人工智能技术的发展需要所有人的协同推进,因此开源、开放就显得特别重要;其次,人工智能技术会赋能各行各业,开源、开放可以让各行各业便捷地使用人工智能,让社会各界都受益”。
旷视科技则把开源框架做了一个很好理解的比喻,他们向笔者称,开源框架的作用就是为开发者提供一个良好的开发环境,如果把算法研发比做炒菜的过程,有无框架的区别就是,现在不需要厨师自己去造锅、生火和洗菜,直接炒菜就可以了。
旷视科技天元开源框架
“开源框架就是让研发人员获得从数据到算法产业化的一揽子技术能力,不用重复造轮子也可以推进AI快速落地。”旷视科技表示。
对于开发者来说,“开源”最大的意义就在于其“技术共享与共建”。旷视科技介绍,“20世纪末期,Linux 系统为中国开发者打开了通往开源“集市”的大门,开源软件为国产操作系统和国产软件平台从0到1开辟了基础,同时中国的开发者们也为国际的开源社区做出了大量的贡献”。
开源社区的发展壮大和成果共享,促使很多企业实现了快速的成长,同时也触发了技术的加速迭代,和大批信息技术人才的涌现。
开源:利于企业生态化,加快新基建步伐
据笔者了解,在旷视、华为等发布开源之前,早在2016年,百度就开放了自主研发的开源PaddlePaddle深度学习平台。据了解,百度PaddlePaddle是国内最早的开源深度学习框架,并且打破了国产AI框架的开源。
除百度开源PaddlePaddle外,还有脸书Torch、蒙特利尔理工学院Theano、谷歌Tensorflow、腾讯Angel、阿里X-DeepLearning等。据悉,目前,全球市场被脸书Torch、谷歌Tensorflow占据了90%以上的开发者市场。
笔者查询资料获悉:此前,百度相关人士曾对媒体介绍道“深度学习框架就像智能时代的操作系统,它向下连接芯片、大型计算机系统,向上承接各种业务模型、行业应用,在生态中处于核心位置,如果一直基于海外谷歌和Facebook的框架,等着别人开放功能,会丧失率先打开未知领域的机会”。
同时,如果只偏重在上层应用、忽视了底层技术,国内底层人才将空心化。
亿欧智库产业互联网研究副总监薄纯敏也向笔者表示:“目前,国内研发开源深度学习框架的企业比较少,而且也没有非常核心的开源深度学习框架,市场几乎被谷歌与脸书占据”。
她分析,国内企业开发开源框架主要有两个原因:第一、大公司想要通过开源框架建立企业生态化;第二、大公司建立完生态化后,希望通过技术或产品的开源,去获取想要的数据资源,然后对这些数据进行分析与整合,再利用。
开源的本质是开放,而目前开源是被大多数企业当作战略来发展的,因为所有行业最终的目标就是通过开放实现生态化。就拿腾讯来说,第一步,它是通过开放来进行企业生态化;第二步,则是通过生态来给社会、企业等提供开源框架的解决方案。
除此之外,开源框架对初进入AI行业的初创公司而言,可以很好降低最开始的研究基础门槛;对于本身就对AI技术比较感兴趣的爱好者而言,他们不一定会商业化,他们可以会通过开源框架做一些小的系统研发。不仅如此,开源框架还可以构建全社会技术共享的大生态。
在笔者看来,AI作为新基建中的一部分,开源深度学习框架进一步加速了AI技术落地,这对于最近大家比较关注的新基建项目也有很大促进作用,AI 加速落地在一定程度上,也可加快新型基础设施建设的步伐。旷视科技表示:“通过开源、开放的方式,可以让每一个AI开发者都有能力快速实现算法从0到1的创造,进而创造更大的价值”。
小结:
不过,从目前的现实情况来看,开源深度学习框架确实可以给AI行业技术落地带来促进作用,但是也会导致一些底层技术研发的滞后。薄纯敏称,“这就好比现在大家用的手机一样,大部分都局限于Android与IOS系统,这些系统本身很好,大家都可以用,但是却不利于行业底层技术的多元化发展”。
开源框架的使用也一样,当开源框架开放后,大家就会拿来即用,会停留在一些开源框架中,而不去思考、不去进行更深层次的多元化开源底层技术研发。