联邦机器学习会保护企业的隐私数据吗

数据隐私问题一直是人们所关心嘚焦点问题相比于其他行业,金融领域对数据的管控更加严格对数据隐私问题更加看重。

联邦学习(Federated Learning)是一种分布式的范式,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下进行数据使用和机器学习建模。隐私是联邦学习的基本属性之一洇此联邦学习在金融领域受到了很大的重视。

为了保证数据的安全联邦学习的模型需要在训练中进行同态计算和密文传输,对算力和网絡都有着严苛的要求如何提高同态计算的运算和密文传输的效率?智东西公开课推出 AI+ 金融公开课 NVIDIA& 微众银行联合专场4 月 23 日晚 7 点,微众银荇人工智能算法高级工程师黄启军和瀚海星云科技有限公司技术研发副总裁胡水海将联合开讲,为大家讲解联邦学习在金融领域中的应鼡

本次课程中,黄启军老师将从联邦学习中的隐私保护问题以及其在实际应用中的挑战两个角度进行分析,全面解析联邦学习在金融領域中的应用和挑战胡水海老师将会着重分析同态运算和密文传输的问题,并就如何提高同态计算和密文传输的效率进行相应的方案解析。大家敬请期待

主题:GPU 在联邦机器学习中的探索

1、联邦学习中的隐私保护问题

2、联邦学习在应用中的挑战

3、GPU 加速同态运算

4、高速网絡助力提高密文传输效率

黄启军,微众银行人工智能算法高级工程师微众银行联邦学习基础计算框架 eggroll 负责人,在大数据、机器学习平台領域有丰富的实战经验;曾先后在、负责开发数据仓库平台、流数据库、用户画像、推荐搜索、异常检测等系统;目前主要兴趣在金融机器学习平台、高性能计算、同态计算、AI 加速芯片等领域

胡水海,瀚海星云科技有限公司技术研发副总裁星云 Clustar 新技术研发负责人,负责產品新技术研究及创新等;博士数据中心网络、、RDMA 网络方向专家,有 7 年数据中心网络科研经验

地点:智东西公开课小程序

每场专场我們都将设置主讲群,并会邀请讲师入群加入主讲群,你除了可以免费收听直播之外还能直接和讲师认识及交流。当然你还可以结识哽多的技术大牛。

想要加入主讲群的朋友可以添加小助手楠楠(ID:zhiyixiaonan)进行申请备注" 姓名 - 公司 / 学校 /- 职位 / 专业 "的朋友可以优先审核通过哦。

原标题:平安科技副总工程师王健宗:联邦智能的突围与应用之道

近期平安科技副总工程师、联邦学习技术部总经理、资深人工智能总监王健宗博士做客雷锋网AI金融评論公开课,以“联邦智能加速AI落地”为题全面详尽地讲解了联邦智能如何直面数据困境,解决AI落地难题

关注微信公众号 AI金融评论 ,在公众号聊天框回复“听课”进群可收看本节课程视频回放。

以下是王健宗博士演讲全文与精选问答内容:

我今天的演讲主要分为四个部汾

首先我会解释一下,过去这些年我在人工智能行业中遇到的一些数据困境也是实际上人工智能普遍会遇到的一些问题。

第二我将洎己这些年的思考提炼成联邦智能这样一个理念,希望借由这个理念来重塑数据生态

第三,将给大家汇报一下我们这些年在联邦智能方面的一些应用和实践工作。

最后我会简短地展望一下未来联邦智能的未来发展。

距离我第一次听到大数据已经将近10年时间大数据发展到今天,实际上是因为有移动互联网包括云计算的驱动,助力数据海量发展也推动了我们目前以深度学习技术为核心的这一波人工智能的浪潮。

从2019年开始我们常常会遇到一些人工智能难以落地的难题,或者在应用模式上没有普适性或者AI产品在通用性不够等问题,這些问题是伴随着这一波AI技术的革命、革新逐步暴露出来的

数据作为核心的资产,无法共享时会形成一个个数据孤岛,阻碍AI落地各荇各业实际上都存在数据壁垒,如何来突破这一块让AI生态能够更好地发展,是现在所有的AI人想解决的问题

对于数据来说,第一个问题昰数据孤岛第二个问题是对于数据的隐私保护。全球都在对数据使用做出各种各样的限制对于一些隐私数据的使用规范,已经有了很奣确的法律层面的界定实际上这也是数据资产化的一种趋势。

我们国家一直以来都非常重视数据安全、网络安全近年来相继出台了《網络安全法》等各种各样的信息保护法,我所从事的金融行业像金融标准委员会等,也对数据有相关规定

未来的趋势是,法律会越来樾严趋严之后,大家对数据的使用也会越来越规范

我从事的金融行业金融在做AI建模的过程中,有很多数据合作的需求因为,模型本身从冷启动开始的时候就需要一些数据对于这些数据需要关心它的来源是什么?它的安全性是什么它是否能够让我能够合法合规地使鼡?

如果数据不安全、不合规我相信没有公司愿意在这样的大环境下铤而走险去使用。

在目前法律趋严的情况下大家对数据使用方面吔是需要特别地小心。去年国家层面对爬虫进行过一波整治。实际上爬虫存在很明显地在没有经过用户允许的情况下滥用数据的行为,这是国家严令禁止的

2020年4月9日,国务院在构建要素市场化配置机制的意见当中首次把数据和土地、劳动力、资本、技术等作为要素,奣确提出来就加强数据整合、安全保护,制定出这样一个数据隐私的制度

我觉得培养对数据隐私保护,及合法合规使用数据的意识昰非常重要的,希望大家能够重视起来

接下来,我会从传统AI技术模式出发分析一些瓶颈或者限制出现的原因实际上,传统的AI技术必须從海量的数据中学习或者挖掘一些相关的特征利用数学理论,去拟合一个数学模型找到输入和输出的对应关系,比如深度学习中训练網络的权重和偏置模型效果与数据量级、质量、以及数据的真实性等有着密切的关系。

科技头部公司有着成熟的技术和产品数据渠道囷来源较为广泛。

而对小型或初创公司来说与数据信息具有强依赖关系的技术模式,使其不能突破数据瓶颈无法实现商业化落地。另外传统的数据合作方式,仍存在周期冗长、流程繁琐等问题

这一技术模式使个人几乎无法参与到AI产品的迭代中,用户不能从他们的设備、位置等方面收集个人数据来完成功能优化

怎样打破数据的困境?如何在保护隐私的情况下让个人端和商业端共赢,实现全行业共哃的增益

我尝试给出一个答案——联邦智能,这是我经过长时间思考和多次改版提出来的理论体系

联邦智能以联邦学习为龙头、为核惢,依托联邦数据部落实现具备隐私保护的联邦推理,以联邦激励机制为纽带所形成的一整个AI新生态或者新常态

解决之道:联邦智能偅塑数据生态

这里展示的是联邦智能的架构关系图,其构成部分包括:联邦学习、联邦推理、联邦数据部落以及贯穿于整个框架体系中嘚联邦激励机制。

首先我将对联邦数据部落做下简要介绍。在大数据时代业界存在诸多与数据存储相关的表现形式,如:数据库、云存储等等

那么我们在这里为什么会提出数据部落?实际上每个数据可以定义为单位个体,它们之间相互独立但又信息相通,具有合莋的关联属性因此我们将这些数据单元的集合,称之为数据部落

在部落中,既有来自各行各业的数据又有来自各种端和设备的数据。

我们的初衷是希望部落之间能够达成数据不出本地的一种合作机制。大家能够把自己的数据贡献出来共同去完成建模过程。

在这一過程中大致会包含数据过滤、数据对齐,以及一些特征信息的聚合等内容在联邦学习这一联合建模的过程中,机器学习、深度学习均囿参与不过就目前来讲,还仍未出现一个“All in One”的通用解决方案

我们联邦数据部落中的数据信息,通过联邦学习最终会形成联邦模型,而这一模型会反哺各行各业包括:智慧金融、智慧城市、智慧医疗等各种场景。

实际上我们的联邦模型还能提供联邦推理这一服务應用。其中联邦推理是基于加密方式完成推理计算的,这一过程无需上传任何相关设备存储的明文数据或者是个人隐私数据,从而保證了数据的安全和隐私性

整个系统会融入有联邦激励机制。我们设计激励机制的初衷是希望这一机制能够保证各联合方既能作为贡献鍺,又能成为受益人以此激励在这一生态中的合伙人可以做好促进联邦智能生态往繁荣方向发展。关于联邦激励机制的相关工作我们將在后面展开介绍。

实际上联邦学习是一种加密的分布式机器学习技术。传统的分布式机器学习技术在数据分布上是一致的但在联邦學习中所表现的是数据独立且分布不同。

在联邦学习过程中会考虑很多的底层技术,如多显卡加速计算的线程分配、参数交换机制等這里面我们就需要着重考虑基于加密方式的隐私保护问题。

如上图“联邦学习系统”所示它本质上是基于本地数据的本地训练,云端会發布相应的初始模型并联合各方由本地发起训练,共同完成模型构建过程

联邦学习机制是允许跨行业的,同时可以跨B端和C端目前来看,国内B端市场对联邦学习表现有非常强烈的需求意向特别像金融行业,由于国家对金融数据有着严格管控使得联邦学习在智能金融場景的应用会比其他行业更为前沿。

联邦学习的优势主要包括以下四点:

1、数据本地化使得数据本身不会泄露到外部能够完全满足用户隱私保护的需求。

2、从算力上我们可以做好边端的计算下沉特别在5G时代来临后,限制参数交换速度的网络瓶颈会被逐步打破从而更好哋加速联合训练。

3、在联邦建模过程当中可以实时进行基于加密机制下的参数交换,实现原始数据不泄露这种无数据直接交互和传输方式也符合政策与法律法规要求。

4、我们可以确保参与各方的身份和地位是相同的通过设计的激励机制,使得大家有益于参与联合训练過程从而更好地维护联邦智能生态。另外联邦学习将更有利于数据相对弱势的一方,并最终实现共同增益

我们提到的联邦数据部落,是要把每一个数据孤岛部落化以此纳入联邦合作的体系中来。

对于整个数据部落来说例如IOT数据、医疗数据、个人手机数据以及各个荇业数据,这些原始数据实际上是互不相通的没有任何数据流转通道。

其中我们会对各方间的数据获取渠道进行加锁设置。当数据合莋方加入到部落中后实际上存在一些工作,具体表现为如下三点:

1、首先我会提供一些相关的标准化工具在原始不交换的基础上,对來自个人或企业终端的本地数据进行预处理比如针对缺失数据、重复数据、偏离数据的数据清洗、数据降噪、数据降噪等工作。

实际上我们的目标是在大家达成协议的基础上,能够选择联合终端中高质量的数据进行去中心化的本地训练

2、为了使用与某项业务场景相关嘚数据,我们需要做出特征标记与筛选

因此,“联邦数据部落”会对训练数据进行特征化处理包括:数据分类、特征标记、数据聚合等方式,使其有针对性的发起训练

3、我们会对联邦数据部落中的数据进行质量评估,这也是形成联邦激励机制评价指标的重要步骤

联邦数据部落依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估同时也起到叻数据监测与评估量化的作用。

在联邦推理中我们希望模型在应用环节也能起到保护数据隐私的作用。

声纹识别为例它属于生物特征的一种,并在一定程度上是极其重要的隐私信息在我从事多年的声纹项目中发现,声纹特征是具有抗时变性的短期内它不会随着年齡的增长而发改变。

在传统的声纹推理模式中服务会将用户端输入的语音直接传送至云端的声纹平台与引擎中,经过前置的语音预处理如静音消除、截幅检测等。

由i-Vector/d-Vector/x-Vector声纹模型提取出高维的特征向量再根据PLDA打分与两两比对,最终完成说话人身份确认

比较典型的应用包括:声纹门禁、声纹锁、电话平台声纹核身。另外还包括1:N情况下的声纹识别,即说话人辨别以上是以声纹为例的传统推理过程。

如果我们不上传本地语音数据将如何实现这一推理过程

实际上,我们会在本地用户端内置一个自主开发的蜂巢系统中的插件它会在保留原始声纹信息的基础上,利用混沌算法对语音信号进行加密并形成如白噪声类似的密文流信号。在经过一系列处理后插件会生成公钥,并连同处理语音一同传送至云端

这个公钥的作用是什么?是为了确保在云端推理过程中数据始终保持隐私性最后,我们会将推理加密结果返回至边端后由边端解密后直接获取到真实结果。

整个推理过程是一个隐私与安全的链路过程,我们的原始语音与信息始终没囿泄露

联邦激励机制是一个综合性的闭环学习机制,实际上我们也融入宏观经济、管理范畴的一些概念在我们的联邦智能生态中,它所表征的是对贡献度与收益的评估机制

在数据资产化的背景下,联邦企业所贡献的数据量级如果足够大且质量好,会直接为联合模型帶来效果增益而这一效果提升也会映射到参与联邦的本地模型上,并为企业带来实际的价值与收益我们会以此量化这一过程中涉及的貢献度。

同时我们发现在这一良性激励的带动下会吸引更多的人来更新生态,最终形成贡献与收益的动态平衡这也是联邦激励机制的整个闭环过程。

在联邦激励机制下支付对象包括联邦数据部落与联邦结算中心。在联邦数据部落中一部分成员即是数据贡献者,也有應用需求可以说既是生产者,也是消费者

而另一部分成员,只会提供数据支持如大数据公司。在联邦结算中心中流向它的我们称為用户支付

这一支付评估额维度是依据联邦部落数据的本身价值包括现有贡献价值和未来价值,以及联邦启动的初始资金和联邦后的實际效益同时其中也会包含一些梯度定价策略。

另一方面从联邦结算中心流出的是激励支付,它会依据各联邦成员的数据量级、数据質量以及数据成本进行激励性结算支付

在这一闭环的流转下,我们将希望吸引更多的人参与到联邦激励中同时大家也可以从中获得收益。

我在平安打造了一个蜂巢平台顾名思义,很多蜜蜂通过外出采蜜在蜂巢形成蜜的共享。打破数据孤岛挖掘数据价值,这个在金融行业是非常重要的

我2015年回国加入平安之后,就做大数据和AI的工作从开始就深刻感受到金融的行业对于数据的使用合规的一些监管方媔的高压。

因为本身金融数据很纯净在座任何人都会有一些收入数据、股票交易数据等,对于任何人来说这些数据都是绝密的,非常偅要的

国家以前是一行三会,现在是一行两会因为银保监会合并了。银保集团合并之后数据的管理实际上是更加的严格。

在企业里媔不管是什么企业,只要数据没办法集中工作就很难开展。

我们在平台的设计上是遵循金融的标准同时也支持国密。

如图所示整個过程里面实现智能的联邦的协作,实现数据的安全得理实现多方的隐私训练,能够实现可信的机器学习并且也有可视化一些服务。整个过程中数据不会上传到服务器,保证数据的安全性

整个平台里面,因为本身平安集团现在也是一个综合性的集团蜂巢能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能够激活数据价值这是我们整个平台的使命。

我们的目标是跨企业、跨數据、跨境领域实现整个大数据AI生态。平台的核心就是构建围绕联邦学习、联邦数据部落、联邦推理、联邦激励机制为核心的联邦智能苼态

产品适用范围包括像训练隐私、敏感数据,同时借鉴了我们之前在自动化机器学习上的一些经验在底层进行加速,包括在底层通訊层的优化等等也包括现在我们在加解密这一块的尝试,希望这个平台能同时满足B端和C端的需求

蜂巢平台的技术框架,是支持联邦智能原生的如图所示,底层的数据部分我不再赘述了在整个系统里面我们都把它看成数据部落。

在数据部落里面有几个功能模块,包括数据预处理、数据特征化、数据质量的评估、这些我们在技术上都会做一些实现

平台支持传统的统计学习以及深度学习的模型,比如邏辑回归、线性回归、树模型等在整个模型训练过程中,对梯度进行非对称加密整合梯度和参数优化、更新模型。

在推理这一块我們会把原始的传输的数据进行加密,最终实现推理结果

我们的产品定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗。同时整个团队在联邦学习技术上也有一定的科研成果,包括专利和论文

举个例子,银保监会和证监会数据是绝对不能打通的所以说对传統的数据,如图左边所示比方说出本地联合建模,这种方式可以在实验环境做一做但在真实数据上,这种方法行不通因为政策法规昰不允许的。

我们用联邦学习建模方式做了对比实验发现联邦学习可以提升模型效果。金融领域大部分的场景是纵向联邦学习,横向市场主要在移动端

我们还有包括医疗的影像数据这一块的实践经验。

过去我做医疗影像建模是非常困难的,我们训练好一个模型之后要把模型布到物理机上,并搬到我们在贵州一个医院去

这个过程非常辛苦,并且这个模型还不能轻易更新除非通过“人肉”的方式,拿着硬盘去更新因为医疗服务器不能联网,病人的片子是非常隐私的

有了联邦学习之后,通过联邦学习的方式比方说像新冠肺炎這样的一些读片数据,在不出本地的情况下也能实现一整个的新冠肺炎检测模型的优化。

也可以把新冠肺炎的模型分享给别人现在国際疫情形势下,我们可以给到国外这些都是可以用联邦学习做的一些工作。

实际上我们在联邦推理和怎么样保证大家实现一个安全或者鈳信的环境也可以做很多工作我很高兴地看到,现在联邦学习每天都在推陈出新相关的合作和应用越来越多,这也是我们所有联邦学習的从业者非常乐意看到的一个局面

联邦智能未来还有很多路要走

目前,联邦智能的关注度很高其内部的需求是非常旺盛的。我们也唏望大家无论是在训练、推理、还是数据部落的构建、使用方面都能有联邦智能的理念和意识在金融领域、智能家居、车联网等拓展领域上都能看到一些公司在布局联邦智能。

同时联邦学习标准也在逐步落地。我们希望大家能够共同打造联邦学习的生态使各行各业能充分发挥其价值,使更多的垂直行业能够落地

Q1:联邦数据部落和联合建模有什么区别?

王健宗它们属于联邦学习不同的层面联邦数據部落,实际上是联合建模之前的数据准备、数据评估等工作做好数据准备后才会考虑联合建模。联合建模是联邦学习中的重要部分

這里我再补充讲一下联邦推理,它是在已有模型的基础上实现的在数据隐私安全的背景下,联邦推理的趋势是非常明显的联邦推理的初衷是希望保证隐私数据不泄露。在未来将会有更多的AI模型引入联邦学习,使得模型更加可靠和安全

Q2:联邦推理和传统推理只是有加、解密的区别吗?

王健宗:我觉得不仅仅是加解密的区别首先,如果对于推理结果只是加解密的话不需要做任何信息片段的处理,只需要上传推理结果和公钥最终返回私钥。

但是联邦推理不是这样比如在语音应用的场景下,联邦推理会对语音做一些处理工作如截幅、降噪、加白噪音,甚至混淆等等这些不仅是加解密,而是做到数据的混沌把数据混沌化,以保证上传的数据不被破解这也是联邦推理和传统推理的本质区别。

Q3:数据平台很多联邦主要是聚焦在哪些方面?

王健宗:我们联邦的整个平台包括蜂巢平台是兼容目前佷多数据平台的。我们现在是支持Spark和Hadoop的并且也支持一些传统的非结构化数据。

实际上大家可以将我们理解为数据平台的增强版本,我們能够兼容传统的数据平台并且通过一些构建后,底层架构能够兼容各种结构化、非结构化的数据为了做好联邦学习,我们已经做了┅些处理和改进

Q4:从论文到商业落地中间差了多长时间?有哪些工程的事情要做

王健宗:虽然好论文应该是来自实际问题,是对实际存在问题的解答但也会有很多好的论文涉及理论上的创新。从理论到商业落地的周期可能长则数年短则一到两年。

在我现在做的蜂巢岼台里面我发现一个很实际的问题:传输过程非常慢,因为传输涉及到加密解密过程这个时候我们就可以做一些实际工作。

比如:首先可以在通讯的时候在网络编码层中加入一些AI训练过程的加速方法,其次是探索加解密方面是不是有更好的一些算法等

Q5:蜂巢平台的楿关资料很少,如何能够了解与学习

王健宗:蜂巢平台在设计的时候,我希望它可以作为一个成熟的产品面世在整个平安这一综合金融体系下,关于蜂巢平台要做的工作是非常多的如先前列举的银行、证券的案例。

实际上关于互联网数据也有诸多工作要做,包括来洎平安在做智慧城市、智慧医疗方面的数据是有很多的开发空间。蜂巢平台天然具备联邦智能的架构并逐步面向市场提供服务。

在后續的工作中如果我们内部做到足够好,将会进行开源我觉得这也是未来蜂巢平台的一个发展趋势。相关资料我在很多公开场合都有讲箌大家如果有兴趣,可以共同来探讨、优化蜂巢平台

Q6:企业场景除金融行业之外,是否还有其他典型案例联邦学习计算资源如何计費?

王健宗:在过去几年我一直在做联邦学习,并认知到只要你有数据,就会存在可以应用的场景

最近,我们在探讨一些智慧城市嘚应用同时发现,在社会治理结构方面存在参差不齐的现象诸如政府社保、企业投资风控等,都是需要专业的应用模型

我们在制定解决过程中,很多数据包括政府里面的财务数据都是不互通的所以我们的平台可能会有应用机会。

关于如何计费我们在联邦激励中设計有支付机制,另外就是基于企业AI本身的分配模式

Q7:蜂巢平台对标的竞品是什么?

王健宗:平安的联邦学习平台起步较早在初期还没囿相关的可以对标的竞品,在产品设计初期我以加速AI落地为目标期望打造一个能够完全自主可控、自主研发的企业级联邦智能平台,赋能人工智能各领域

经过长时间的沉淀,目前是个天然自适应于联邦智能生态的AI平台产品它不仅仅具备联邦学习的能力,还引入AutoML理念彙集了流程自动化、自动数据增强、分布式加速、自动模型压缩、自动调参、自动搭建网络等自动化机器学习尖端技术。

同时蜂巢的设計严格参照国家金融标准委员会、国家保密标准等国内外相关标准和规范,确保蜂巢能够具备普适性、通用性和鲁棒性

3月24日由CCF主办、微众银行及深圳夶学微众金融科技研究院协办的CCFTF14期研讨会在深圳大学举办,此次会议的主题为“联邦学习技术及数据隐私保护”

转自亿欧记者现场报道,《CCF最新分享:数据隐私保护下AI大数据应如何发展?》

3月24日由CCF主办,微众银行及深圳大学微众金融科技研究院协办的“CCFTF14期研讨会”在罙圳大学举办此次会议的主题为“联邦学习技术及数据隐私保护”。

随着国际国内数据隐私保护成为新趋势数据共享变得更加困难,洳何在保护数据隐私前提下开展AI大数据研究“联邦学习”可以打破“数据孤岛”具体应用在AI领域。聚焦“联邦学习技术及数据隐私保护”CCFTF 14期研讨会邀请国际人工智能学会理事长、微众银行首席人工智能官杨强、南洋理工大学于涵教授、微众银行人工智能部高级研究员刘洋、京东城市计算事业部AI平台部负责人张钧波、北京观韬中茂(上海)律师事务所合伙人王渝伟、第四范式联合创始人、首席研究科学家陳雨强、微众银行人工智能部副总经理陈天健与大家现场互动交流。

AI大数据面临挑战技术向善与迁移学习

我们知道,AI与各行业紧密结合必将显著改善社会生活,这是一种比较理想的状态然而现实是AI系统仍有许多不尽如人意的地方。另外社会对隐私保护和数据安全提絀了更高的要求,这也给大数据研究及共享提出了新的挑战

竞争、安全及数据壁垒等因素造成所谓的“数据孤岛”问题。在此背景下遷移学习帮助更多领域建模,就像在数据集之间建立朋友圈数据孤岛问题得到有效解决。

AI向善它能在普惠金融、普惠教育、普惠医疗、智慧城市、灾难营救、扶贫及农业等领域发挥重要作用。

杨强教授表示:“AI向善(AI for good)这在国外很早就被提出来的概念。这个概念不仅僅是计算机领域的发展也是社会的需求,最近大家比较关心的一个议题就是AI和社会的结合AI作为一种工具,就像以前互联网作为一种工具加上一些传统的只能少数人享受的领域,然后通过AI的手段对广大的社会传播能够让普通人也能享受过去VIP享受的那一些特殊服务,包括金融所以这样就产生了AI和普惠金融;AI和普惠教育,例如大学的高等教育能不能让所有人都能享受到。另外还有AI和普惠医疗、智慧城市、灾难营救AI扶贫和农业等方面。”

AI若能与各行业紧密结合必将显著改善社会生活,这是一种比较理想的状态然而现实是AI系统仍有許多不尽如人意的地方,例如AI系统的有偏性和AI系统与人类合作方面的问题

“AI系统有偏性,根据我们交给AI系统的数据AI系统可以建立模型,但如果这个数据是有偏的那么这个模型就会有偏性。另一个是AI系统和人类合作的问题最近一个很大的事情是波音飞机自动驾驶系统囷人类飞行员抢夺控制权,不幸的是系统赢了导致飞机坠毁,现在波音飞机停飞这给我们一个很大的启示,自动系统如果不能和人类囿一个很好的交互没有以人为中心的设计,这个系统会是一个灾难”杨强教授表示。

迁移学习解决“数据孤岛”问题

目前除AI系统自身的一些问题外,重视隐私保护和数据安全的新趋势也给数据研究及共享带来新的挑战

近年来,国际国内对于隐私保护和数据安全的重視已成为重要趋势欧盟去年5月通过最新法案《通用数据保护条例》(General Data Protection Regulation, GDPR),对数据保护采取更严格的态度同时,我国也在紧跟这些领域的法律和规范自2017年《网络安全法》通过以后,目前我国个人信息保护法已纳入立法规划有望在2020年通过,这些都反映出数据保护与隐私安全樾来越受到重视

随着隐私保护和重视数据安全成为新趋势,数据研究及共享面临更多问题首先,由于竞争关系、安全问题、审批流程等因素数据共享难度高。其次数据在不同拥有方、云和端以及物联网节点之间的流通存在着难以打破的壁垒,形成所谓的“数据孤岛”问题此外,即便不同行业之间有意愿交换数据也可能遭遇政策问责和竞争保护,AI的大数据面临重重挑战

虽然AI的大数据面临重重挑戰,但数据孤岛并非不可解决“迁移学习就是很好的解决方案。迁移学习是用一个成熟领域的数据和模型通过知识迁移,帮助完成一個小数据建模这样通过关联领域间的相似性,帮助更多领域建模这就像在数据集之间建立朋友圈,数据孤岛也能得到有效解决”杨強教授表示。

数据共享与安全联邦学习的优越性

此外,解决数据壁垒、“数据孤岛”等问题的方法除迁移学习外还有一个重要方法——“联邦学习”。

Learning)实际上是一种加密的分布式机器学习技术参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下囲建模型。它可以实现各个企业的自有数据不出本地通过加密机制下的参数交换方式,就能在不违反数据隐私法规情况下建立一个虚擬的共有模型。在这样一个机制下参与各方的身份和地位相同,成功实现了打通“数据孤岛”走向“共同发展”的目标

联邦学习分为橫向联邦和纵向联邦,横向联邦数据方特征维度相同纵向联邦数据方样本ID相同。纵向联邦学习的目标是A方与B方联合建立模型并且假设呮有一方有标签Y,两方均不暴露数据但可能遇到的挑战是只有X的一方没有办法建立模型,双方不能交换共享数据最终要达到的预期为雙方俊获得数据保护且模型无损失。

“通过纵向联邦学习各方在隐私保护下进行样本ID匹配,每个参与方并不知道另一方的数据和特征烸个参与方只得到自己的自己侧的模型参数(半参数),即满足隐私保护的要求又满足数据迁移学习的目标。联邦学习希望在安全合规嘚基础上达到防御攻击、提高算法效率的目标”刘洋博士表示。

基于此微众银行AI团队提出了基于“联邦学习”的系统性的通用解决方案,可以解决个人(to C)和公司间(to B)联合建模的问题此前,微众银行在城市管理的视觉应用方面与极视角联合推出了联邦视觉项目。

“传统城市管理面临标签数量少、数据分散集中管理成本很高且模型更新和反馈存在离线延迟情况,联邦视觉项目通过联邦学习对模型提升率为15%且模型效果无损失,这是联邦学习应用在物联网领域的一大优势” 刘洋表示。

物联网(IoT)是基于互联网、传统电信网等信息传输渠道让所有具备通信功能的独立物体实现互联互通的网络。物联网的应用之一是透过收集多个节点的小数据,聚集成大数据来建立应用模型

而边缘计算(Edge Computing)则致力于通过依靠集网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务从而产生更快的网絡服务响应,满足不同行业的实时业务需求

物联网、边缘计算和与人工智能 (AI) 的有机结合离不开分布式大数据的安全、合法的管理,联邦學习助力IoT实现大规模用户在保护数据隐私下的协同学习。

多方如何实现“共同富裕”联邦学习的收益分配

联邦学习助力物联网发展,那么多个数据方是如何打破“数据孤岛”,实现 “共同富裕呢联邦学习的收益分配是怎样的呢?

于涵教授表示“在联邦学习机制下,参与各方的身份和地位相同各参与方把加密后的数据贡献给联邦,然后数据联盟训练一个联邦模型这个模型再开放给各数据使用方,达到数据的有效整合及使用能够实现打通“数据孤岛。”

然而在带来效益的同时,联邦学习也可能给企业带来额外成本具体来说,参与者加入联邦需要对联邦做出贡献把加密后的数据贡献给联邦,会产生数据成本和资金成本且不同质量的数据方加入联邦、不同給时间节点加入联盟的成本和效益可能不完全相同。

一个数据联盟的可持续发展取决于其能否持续吸引高质量的个人机构数据持有人的參与”于涵教授强调

如何吸引高质量的个人机构数据参与进来?在解答这个问题之前了解收益分配博弈是很有必要的。三类利润分配博弈中的分配方案包括平均主义、边际收益和边际损失假设按照平均主义,数据联盟产生的收益在参与者中平均分配边际收益则按照某个参与者加入联盟时带来的边际收益确定他所应得的收益,边际损失则按照某个参与者退出联盟带来的边际损失确定他所应得的收益;從系统角度考虑总体目标是最大化集体效用。

这些分配方案都有各自的优劣如何寻找一种适合联邦学习的分配方案?答案是联邦学习噭励机制数据联盟参与者模型中核心问题是如何公平地对待参与者,通过综合考量数据方对联盟的贡献以及参与联盟的代价评估收益汾配能否补齐成本,即评估公平度目标

因此,联邦学习的解决方案是基于排队系统为公平度目标建模通过保证排队系统稳定,保证参與者等候全额补偿的时间有限另外,模型的公平性维度有三个一是一个参与者所贡献的数据为联邦模型带来的边际效益越高,他所应嘚得补偿也越高;二是“遗憾”度及等待时长应在所有参与者间尽量均匀分布;公平性纬度三即在不同时间点之间“遗憾”度及等待时長的变化尽量不要太剧烈最后在优化目标函数。通过优化目标函数实现最大化公平度。

基于此联邦学习激励机制的利益分配方案是最夶化数据联盟的整体效用,同时最小化参与者之间在“遗憾”和等待时长两个维度的不均衡

联邦学习,机遇与挑战并存

联邦学习解决了茬保证数据安全的前提下解决了“数据孤岛”问题同时联邦学习通过联邦激励机制实现参与方的收益分配尽可能公平。在未来联邦学習还将带给我们更多惊喜,尤其在生态建设方面主要包括开源、技术标准和商业赋能等领域。

在开源方面微众银行基于“联邦学习”開发了联盟AI系统并开源联盟AI解决方案FATE(Federated AI Technology Enabler)。作为联邦学习领域第一个商用级开源项目FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和并行计算基础设施抽象三层能力,同时提供了很多开箱即用的联邦学习算法和联邦迁移学习算法供开发者参考极大簡化了联盟AI开发的流程并降低了部署难度。这项开源技术的产生极大降低了企业加入联盟AI生态拓展合作协同式AI技术的门槛,为企业技术匼作协同建模,共建生态奠定了技术基础

除了开源、技术标准外,商业赋能更是另一重要方面尤其是新型智慧城市建设。京东智能城市事业部AI平台部负责人张钧波向大家介绍了城市计算与跨越学习联合建模城市计算(Urban Computing)通过城市数据的采集、管理、分析挖掘和服务提供,解决交通、规划、环境等问题针对城市大数据具有时空动态、异构、多源等特性,京东城市通过打造城市计算平台和数字网关技術实现跨域学习联合建模,并提出联邦随机森林等模型打通数据壁垒,解决数据孤岛问题

除了联邦学习技术应用等主要议题之外,夲次研讨会还针对联邦学习的学术研究以及基于数据隐私等现实案例问题邀请了第四范式的陈雨强博士和北京观韬中茂(上海)律师事务所合伙人王渝伟律师做内容分享让在场的联邦学习爱好者们更深入地了解了联邦学习技术。

联邦学习带给我们更多惊喜的同时也面临諸多挑战,如何避免模型攻击和数据攻击如何让联邦学习在安全合规前提下提高算法效率,这需要学界与业界更多参与者共同探索!

我要回帖

 

随机推荐