环球焦点!联邦学习前路如何?杨强:已到“合久必分”的状态

2022-11-15 16:11:27   来源:商业新知网

2022年,联邦学习论文数量出现 大幅跃升 ,成为了屡登顶会的香饽饽:


(资料图片)

NeurIPS发布联邦学习论文41篇,较前一年有近30%的增长幅度;ICML则在2022年收录联邦学习论文74篇,几乎成倍于2021年。

这个规律同样存在于顶会AAAI、AISTATS、KDD及CVPR中。

联邦学习论文在顶会频现,相应的,相关产业实践也进行得如火如荼。

这个现象的最好解答者,自然是联邦学习领域的国内最知名大牛:香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会 (CAAI) 荣誉副理事长、微众银行首席人工智能官 杨强 教授。

不仅因为他是CAAI,AAAI,ACM,IEEE,AAAS等多个国际学会Fellow,能够解惑一二。

更能激起求知欲的是,这些联邦学习论文中,有多篇与他带领的团队有关联。

△ 杨强

今年,他在微众银行带领的AI团队,与上海交通大学、中山大学等机构联合撰写了 3篇联邦学习领域论文 。

这3篇论文,以一作身份,被IJCAI 2022、TPAMI 2022、ACM TIST国际人工智能顶级学术期刊和顶级学术会议收录发表。

可信联邦学习,走的是一条怎样的路?

2018年,国内引进了联邦学习 (Federated Learning) 概念。

为了解决数据割裂、数据孤岛等问题,杨强带领的微众银行AI团队在国内 系统性提出联邦学习理论 。

能够保证各企业在自有数据不出本地,不违规的情况下进行联合建模,提升机器学习建模效果。

而后,又于2019年开源首个工业级联邦学习技术框架 FATE ,同年6月捐献给Linux基金会。

3年时间,在联邦学习领域探索的公司如雨后春笋。

联邦学习发展空前,已在金融、医疗、互联网等领域落地应用,并延伸出图联邦学习、动态联邦学习、包容性联邦学习等研究分支。

从刚开始的2018年至2019年间,FATE和主攻横向联邦学习的TensorFlow分庭抗礼,到2019年后,众多初创公司或以FATE为内核,或推出新系统。

一路至今,用杨强的话来说,现在的联邦学习已经进入到“合久必分”的状态。

正是在此基础上,联邦学习发展出第二阶段, 可信联邦学习 。

联邦学习的发展和应用,一直伴随着这样的声音:

存不存在为了提高效率和性能,牺牲安全性的可能?

杨强简明扼要地解释道,绝对安全等于绝对低效,绝对高效意味着绝对不安全:“联合建模 要结合安全性和可用性一起看 。如果是一个极端安全的模型,安全到不能实际使用,这东西也没用。”

对此,论文《联邦学习中隐私与模型性能没有免费午餐定理》通过研究给出的答案是:隐私保护、模型性能、算法效率三者需要平衡,且可以平衡。

在联邦学习过程中,一个半诚实的攻击者,通过观察和了解参与方的数据信息,可能可以推断用户的隐私数据。这种针对隐私的攻击叫做“贝叶斯推断攻击 (Bayesian Inference Attack) ”。

文章从信息论的角度,为联邦学习中隐私泄露和效用损失的分析 提供了一个通用框架 。

这个理论框架揭示了对于满足“贝叶斯隐私”的多方计算系统而言,都满足“|安全|+|效能|≤常数”这一“安全-效益恒定定律”。

无免费午餐定理通过量化隐私和效用之间的约束关系,证明信息的相互泄露和模型效能是互相制约的。

之所以叫“无免费的午餐”,是因为研究表明,一般情况下,隐私和效用的权衡中,必须用一定程度的效用降低来交换隐私的保护,将潜在的隐私损失维持在可接受范围内。

那么,能不能发明一种“聪明”的算法, 把安全性、模型效能、准确率同时最大化 呢?

微众银行AI团队和中山大学合作发表的另一篇论文——《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》——正面回答了这个问题。

FedCG,文章提出的一种新的联邦学习方法,利用条件生成对抗网络,以实现高水平的隐私保护,同时保持模型的性能。

具体而言,FedCG将每个联邦学习参与者的本地网络分解成一个私有提取器和一个公共分类器,然后保持提取器的本地性来保护隐私。

△ FedCG概述图

它结合条件生成对抗网络和分割学习,不是暴露提取器,而是通过与服务器共享客户端的生成器来聚合客户端的共享知识,从而提高本地网络的性能。

实验表明,与联邦学习基线相比,FedCG 有更好的隐私保护能力 ,同时在 模型性能上也具有竞争力 。

另外,考虑到联邦学习不是一次性的训练,它涉及数据的收集、选择,模型的训练、推断甚至交换,整个过程可能面临非法复制、重新分发、滥用的风险。

针对于此,结合对模型知识产权保护的思考,微众银行AI团队进行了一项工作:提出一种 联邦深度神经网络 (FedDNN) 所有权验证方案,称为FedIPR。

《FedIPR:联邦学习模型所属权验证》一文详细介绍道,FedIPR方案允许嵌入和验证私有水印,来申明FedDNN模型的所有权。

有了这个方案,模型由谁做出、有谁用过、谁进行过模型交易,以及模型的危险性、特别性等,都会得到很好的检测。

如此这般,方便了对联邦学习模型进行全生命周期管理,也对模型知识产权起到保护作用。

模型的归属权验证一直是业界致力于解决的难题,微众银行AI团队是首个在联邦学习中融入这项工作的团队。长远来看,这项工作有利于数据和模型市场的建立和规范。

综合看来,此次陆续发表的3篇联邦学习论文,分别从 理论、实践、规模化、工程化 等不同的角度,对可信联邦学习进行了全面探索。

可信联邦学习的提出,通过提出端到端安全生命周期的管理、FedCG这种防火墙式的安全方法等一系列技术上的提升,再加入许多软件工程的管理,譬如软件治理、模型追踪等,将联邦学习领域的发展推进了一步。

至此,联邦学习为何能够成为顶会们的香饽饽,也就有了清晰的眉目。

而且对于联邦学习的火热,杨强还这样评价道:

联邦学习的第二阶段,也就是可信联邦学习,从全世界范围来看都是刚刚起步,到处都有学者响应。

但正所谓能用起来的技术才是好技术,那么接下来的一个问题便是:

顶会们的“香饽饽”,正如何改变我们的生活?

正如我们刚才提到的,可信联邦学习需要处理的那些数据,一般都具备较强的 独立性、隐私性、安全性 。

因此,金融、医疗、物流、政务等场景便成为了联邦学习发挥其实力极佳的“试验田”;尤其是在金融场景中,联邦学习涉足较早。

联邦学习现在应用上的发展态势,用 “百花齐放” 来形容不足为过。

例如全球科技巨头谷歌,国内外学术机构如卡内基梅隆大学 (CMU) 、北京邮电大学等名校也在致力于研究联邦学习;在论文全球高被引方面,国外机构谷歌排名第一,而国内机构则是杨强所在的微众银行。

而且与之相关的开源框架也是陆续被提出,例如OpenMined推出的Pysyft、微众银行的FATE和谷歌的TFF框架等等。

从大方向上来看,现在微众银行所使用的可信联邦学习,不单单是能够完成一个项目那么简单, 更是能够对项目做一个分析和认证 。

在此能力的背后,微众银行所依托的便是全球首个开源的工业级联邦学习框架——FATE (Federated AI Technology Enabler) 。

而自2019年开源以来,这个框架也在不断的提升自己的能力。

像刚才我们提到入围的几篇论文,都已经被涵盖了进来,目前已经步入2.0阶段。

具体到实际案例,可信联邦学习在 金融行业反欺诈 上便起到了很好的作用。

因为在这个过程中所涉及到的数据着实纷繁复杂,包括银行机构、电商、运营商、政务等等。

各方都需要保障自己数据的安全、隐私以及所有权,但交易过程中相互之间又有所交织。

而可信联邦学习就能在保障这个大前提之下,还能做到挖掘金融行为、消费行为、通信行为、社交行为等众多特征。

以及再针对不同细分金融反欺诈业务场景构建专有模型,从而提升金融行业的整体反欺诈能力。

再如 信贷风控 ,亦是如此。

以往中小微企业在信贷风控上所面临的老大难问题,便是信贷评审数据稀缺、不全面、历史信息沉淀不足等。

但有了可信联邦学习之后,就能在确保数据提供方数据安全以及隐私保护的情况下,让银行融汇企业经营数据、税务数据、工商数据、支付数据等多源信息,丰富建模特征体系,提升模型的有效性。

由此可见,联邦学习能够成为顶会、顶刊们的香饽饽,不仅是因为在科研领域中所具备的前沿性,更是因为它在现实场景中正在发挥着不可替代的作用。

那么对于被顶会、顶刊们pick的联邦学习,以及它玩转数据的这套打法,你怎么看?

关键词: 人工智能

上一篇:
下一篇:
精彩阅读

环球焦点!联邦学习前路如何?杨强:已到“合久必分”的状态

热点

2022年,联邦学习论文数量出现大幅跃升,成为了屡登顶会的香饽饽。

全球即时:中国工程院院士邬贺铨:物联网是互联网发展新阶段的表现形式

热点

在今天举行的首届移动物联网大会(2022)上,中国工程院院士邬贺铨表示,物联网是互联网发展新阶段的表现形式。

广电5G业务规模化|这个地区这么做

热点

中国广电内蒙古公司召开5G部署会,强调要推动5G业务规模化发展。

基于GIS的生态安全网络格局构建之主成分分析

热点

生态安全评价能反映生态安全状况,是区域生态安全格局构建的直接依据。

全球观察:SaaS服务提供商有赞:亏损较去年减少32.8%,前三季度新增付费商家31591家,门店SaaS的新增付费商家占比约50%

热点

亏损方面,有赞在报告期内录得经营亏损约5 10亿元,较去年同期的7 59亿元,减少了32 8%。

【全球独家】中国web3容不下幻想

热点

中美两国Web3创业者境遇与出路的不同。

头条焦点:Web3.0板块迎来分化:榕基软件上演天地板,换手率41.04%!

热点

Web3的技术创新将带来的更多的产业机遇,但仍存在较多的不确定性以及风险。

交易所挽回信任的 Merkle Tree 储备证明是什么?有什么用?有哪些漏洞?

热点

FTX暴雷,使得所有交易所开始共同推进默克尔树储备证明方案。

财富

环球微速讯:预制菜来了,厨师失业不远了?

资讯

预制菜来了,厨师失业不远了?,预制菜越来越多地出现,厨师们有必要恐慌吗?

【全球报资讯】2000台“汽车机器人”被抢光,集度要做汽车界的“苹果”

资讯

2000台“汽车机器人”被抢光,集度要做汽车界的“苹果”,百度已经下场,其他互联网巨头会跟进吗?

天天热消息:红杉下注,碳足迹计量平台Joro完成1000万美元A轮融资丨海外邦

资讯

红杉下注,碳足迹计量平台Joro完成1000万美元A轮融资丨海外邦,Joro的目的是实现经济“去碳化”,通过量化日常生活中的碳足迹,帮助大众提升环

快递只剩涨价一条路

资讯

快递只剩涨价一条路,电商快递,难兄难弟

世界最资讯丨“数字·进化”丨2022数字化发展峰会重磅启动

资讯

“数字·进化”丨2022数字化发展峰会重磅启动,加入2022数字化发展峰会,与我们一起窥探未来之变。

环球热消息:AI种田,靠不靠谱?

资讯

AI种田,靠不靠谱?,媲美水稻种植专家的人工智能

得物隐私博弈,用户永处下风

资讯

得物隐私博弈,用户永处下风,为何大众永远处在劣势地位?

锂价暴涨点燃全球能源战

资讯

锂价暴涨点燃全球能源战,锂,已经开启了新的能源争夺战。

世界杯,中国企业的场外战事

资讯

世界杯,中国企业的场外战事,“中国除了足球队没去,都去了”

当前动态:中国首富的咖啡新生意,与奶茶有关

资讯

中国首富的咖啡新生意,与奶茶有关,看中新茶饮的零售渠道,农夫山泉送咖啡液进入下沉市场。

全球即时:中国工程院院士邬贺铨:物联网是互联网发展新阶段的表现形式

在今天举行的首届移动物联网大会(2022)上,中国工程院院士邬贺铨表示,物联网是互联网发展新阶段的表现形式。

广电5G业务规模化|这个地区这么做

中国广电内蒙古公司召开5G部署会,强调要推动5G业务规模化发展。

基于GIS的生态安全网络格局构建之主成分分析

生态安全评价能反映生态安全状况,是区域生态安全格局构建的直接依据。

全球观察:SaaS服务提供商有赞:亏损较去年减少32.8%,前三季度新增付费商家31591家,门店SaaS的新增付费商家占比约50%

亏损方面,有赞在报告期内录得经营亏损约5 10亿元,较去年同期的7 59亿元,减少了32 8%。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个