CCF：AI大数据应如何发展？

资讯 5年前

1.78K

3月24日，由CCF主办，微众银行及深圳大学微众金融科技研究院协办的“CCFTF14期研讨会”在深圳大学举办，此次会议的主题为“联邦学习技术及数据隐私保护”。

随着国际国内数据隐私保护成为新趋势，数据共享变得更加困难，如何在保护数据隐私前提下开展AI大数据研究？“联邦学习”可以打破“数据孤岛”具体应用在AI领域。聚焦“联邦学习技术及数据隐私保护”，CCFTF 14期研讨会邀请国际人工智能学会理事长、微众银行首席人工智能官杨强、南洋理工大学于涵教授、微众银行人工智能部高级研究员刘洋、京东城市计算事业部AI平台部负责人张钧波、北京观韬中茂（上海）律师事务所合伙人王渝伟、第四范式联合创始人、首席研究科学家陈雨强、微众银行人工智能部副总经理陈天健与大家现场互动交流。

AI大数据面临挑战，技术向善与迁移学习

我们知道，AI与各行业紧密结合，必将显著改善社会生活，这是一种比较理想的状态，然而现实是AI系统仍有许多不尽如人意的地方。另外，社会对隐私保护和数据安全提出了更高的要求，这也给大数据研究及共享提出了新的挑战。

竞争、安全及数据壁垒等因素造成所谓的“数据孤岛”问题。在此背景下，迁移学习帮助更多领域建模，就像在数据集之间建立朋友圈，数据孤岛问题得到有效解决。

AI向善与系统短板

AI向善，它能在普惠金融、普惠教育、普惠医疗、智慧城市、灾难营救、扶贫及农业等领域发挥重要作用。

杨强教授表示：“AI向善（AI for good），这在国外很早就被提出来的概念。这个概念不仅仅是计算机领域的发展，也是社会的需求，最近大家比较关心的一个议题就是AI和社会的结合。AI作为一种工具，就像以前互联网作为一种工具，加上一些传统的只能少数人享受的领域，然后通过AI的手段对广大的社会传播，能够让普通人也能享受过去VIP享受的那一些特殊服务，包括金融，所以这样就产生了AI和普惠金融；AI和普惠教育，例如大学的高等教育，能不能让所有人都能享受到。另外还有AI和普惠医疗、智慧城市、灾难营救，AI扶贫和农业等方面。”

AI若能与各行业紧密结合，必将显著改善社会生活，这是一种比较理想的状态，然而现实是AI系统仍有许多不尽如人意的地方，例如AI系统的有偏性和AI系统与人类合作方面的问题。

“AI系统有偏性，根据我们交给AI系统的数据，AI系统可以建立模型，但如果这个数据是有偏的，那么这个模型就会有偏性。另一个是AI系统和人类合作的问题，最近一个很大的事情是波音飞机自动驾驶系统和人类飞行员抢夺控制权，不幸的是系统赢了，导致飞机坠毁，现在波音飞机停飞。这给我们一个很大的启示，自动系统如果不能和人类有一个很好的交互，没有以人为中心的设计，这个系统会是一个灾难。”杨强教授表示。

迁移学习解决“数据孤岛”问题

目前，除AI系统自身的一些问题外，重视隐私保护和数据安全的新趋势也给数据研究及共享带来新的挑战。

近年来，国际国内对于隐私保护和数据安全的重视已成为重要趋势。欧盟去年5月通过最新法案《通用数据保护条例》（General Data Protection Regulation， GDPR），对数据保护采取更严格的态度。同时，我国也在紧跟这些领域的法律和规范，自2017年《网络安全法》通过以后，目前我国个人信息保护法已纳入立法规划，有望在2020年通过，这些都反映出数据保护与隐私安全越来越受到重视。

随着隐私保护和重视数据安全成为新趋势，数据研究及共享面临更多问题。首先，由于竞争关系、安全问题、审批流程等因素，数据共享难度高。其次，数据在不同拥有方、云和端以及物联网节点之间的流通存在着难以打破的壁垒，形成所谓的“数据孤岛”问题。此外，即便不同行业之间有意愿交换数据，也可能遭遇政策问责和竞争保护，AI的大数据面临重重挑战。

虽然AI的大数据面临重重挑战，但数据孤岛并非不可解决。“迁移学习就是很好的解决方案。迁移学习是用一个成熟领域的数据和模型，通过知识迁移，帮助完成一个小数据建模。这样通过关联领域间的相似性，帮助更多领域建模，这就像在数据集之间建立朋友圈，数据孤岛也能得到有效解决。”杨强教授表示。

数据共享与安全，联邦学习的优越性

此外，解决数据壁垒、“数据孤岛”等问题的方法除迁移学习外，还有一个重要方法——“联邦学习”。

谷歌公司率先提出了基于个人终端设备的“联邦学习” （Federated Learning）算法框架。“联邦机器学习”（Federated Machine Learning）实际上是一种加密的分布式机器学习技术，参与各方可以在不披露底层数据和底层数据的加密（混淆）形态的前提下共建模型。它可以实现各个企业的自有数据不出本地，通过加密机制下的参数交换方式，就能在不违反数据隐私法规情况下，建立一个虚拟的共有模型。在这样一个机制下，参与各方的身份和地位相同，成功实现了打通“数据孤岛”走向“共同发展”的目标。

联邦学习分为横向联邦和纵向联邦，横向联邦数据方特征维度相同，纵向联邦数据方样本ID相同。纵向联邦学习的目标是A方与B方联合建立模型，并且假设只有一方有标签Y，两方均不暴露数据，但可能遇到的挑战是只有X的一方没有办法建立模型，双方不能交换共享数据，最终要达到的预期为双方俊获得数据保护且模型无损失。

“通过纵向联邦学习，各方在隐私保护下进行样本ID匹配，每个参与方并不知道另一方的数据和特征，每个参与方只得到自己的自己侧的模型参数（半参数），即满足隐私保护的要求，又满足数据迁移学习的目标。联邦学习希望在安全合规的基础上达到防御攻击、提高算法效率的目标。”刘洋博士表示。

基于此，微众银行AI团队提出了基于“联邦学习”的系统性的通用解决方案，可以解决个人（to C）和公司间（to B）联合建模的问题。此前，微众银行在城市管理的视觉应用方面，与极视角联合推出了联邦视觉项目。

“传统城市管理面临标签数量少、数据分散，集中管理成本很高且模型更新和反馈存在离线延迟情况，联邦视觉项目通过联邦学习对模型提升率为15％，且模型效果无损失，这是联邦学习应用在物联网领域的一大优势。” 刘洋表示。

物联网（IoT）是基于互联网、传统电信网等信息传输渠道，让所有具备通信功能的独立物体实现互联互通的网络。物联网的应用之一，是透过收集多个节点的小数据，聚集成大数据来建立应用模型。

而边缘计算（Edge Computing）则致力于通过依靠集网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务，从而产生更快的网络服务响应，满足不同行业的实时业务需求。

物联网、边缘计算和与人工智能（AI）的有机结合离不开分布式大数据的安全、合法的管理，联邦学习助力IoT，实现大规模用户在保护数据隐私下的协同学习。