在钛媒体、链得得联合六脉数字科技、区块链服务网络BSN联盟共同发起的“T-EDGE X 全球产业区块链峰会”上,零知识科技CEO徐茂桐对隐私计算的现状、推动力、行业痛点等方面作了分享。
作者|程姝琪来源|链得得
7月17日,钛媒体、链得得联合六脉数字科技、区块链服务网络BSN联盟共同发起“T-EDGE X 全球产业区块链峰会”。本次峰会上,零知识科技CEO徐茂桐对隐私计算的现状、推动力、行业痛点等方面作了分享。
他认为,隐私计算最大的推动力其实是监管,这个在世界范围内都是很明显的大趋势。个人隐私保护的崛起,一方面最大的推手还是国家立法层面,同时民众对自己数据隐私认知也在逐渐提升。
他表示,整个隐私计算行业还是处于非常早期的阶段,目前从金融领域切入是比较可行的,因为它的数据价值比较高,同时金融领域的信息化程度比较深,数据结构化程度比较高,相信和未来五年、十年隐私计算的发展相比只是迈出了一小步。
最后,对于行业的发展他表示,隐私计算终极发展目标是保护每个人的数据,是把数据做确权,最终通过这些数据产生的价值可以回馈给每个用户,或者回馈给这些企业,真正实现数据成为生产资料的宏大目标。
以下为徐茂桐演讲内容,略经链得得编辑:
大家好,我是零知识科技CEO徐茂桐,今天非常荣幸有这样一个机会介绍隐私计算。在我们两年半以前开始创业的时候隐私计算还是极其小众的市场,在过去大半年的时间里才有更多的关注,也是今年第一波有大的企业或者大型产业机构真正深入调研隐私计算,让未来数字化对产业升级带来影响。
零知识科技是一个基于先进的安全多方计算、隐私计算技术的数据安全公司。
监管:隐私计算最大的推动力
首先,我们为什么需要隐私计算?众所周知我们现在处于一个信息时代,数据的规模在逐年的增长,最近10年中数据规模增长40倍,但是原油的产量过去10年只增长了20%。当提到爆发式增长、指数级增长的时候我们讲的是数据,这也是对于年轻一代最大的历史变革。
我们每天都在产生各种各样的数据,这些数据从归属权角度都是属于个人的,这些数据的使用权在各个机构,但是归属权是个人的。在2.0的时代,像亚马逊、谷歌、微信等等,其实这些数据都是在分散状态中,实际上我们最终的愿景是把数据的归属权交还给数据的生产者,让每个人可以管理数据,可以授权一些服务的提供商使用,但是我觉得这个方向还有很长的路要走。
我感觉隐私计算最大的推动力其实是监管,这个在世界范围内都是很明显的大趋势。首先2018年欧盟通过了GDPR,GDPR是一个通用保护个人隐私的法案。目前GDPR也是全球其它国家立法的基础、参照系。国内《网络安全法》三年前就提出了,过去一年中国家对于数据隐私的立法逐渐出台,同时随着前一段时间的微博、华住等等这些比较重大的数据泄露,个人隐私保护的事情也逐渐出现在大众视野当中。我认为有两方面的推手,一方面最大的推手还是国家立法层面,同时民众对自己数据隐私认知也在逐渐提升。
美国2020年已经实施CCPA,是在加州的一个消费者隐私法,然后逐渐推向全美国。目前接触到一些大企业,尤其出海型企业,头条、抖音包括快手,其实他们在各个国家都要做这种数据隐私的保护。在欧洲他们需要做GDPR的规范,在美国需要做CCPA的规范。
数据价值示范的瓶颈我感觉主要在数据确权,所有人希望把数据变成生产要素,这也是国家层面的一个定性,数据属于生产要素,但是如何发挥生产要素使用生产要素,实际上我们需要的是安全的数据共享技术。
这部分简单说一下,首先数据价值释放需要数据共享、整合和分析。但是传统的数据共享手段无法安全地做到数据的安全共享和流转。A把数据直接发给B,大数据公司收集各方数据做建模最终可以完成数据价值提取,但是这个过程中就存在数据泄露的风险。隐私计算就是要实现数据的可用但不可见,进而实现数据的确权、定价,真正把数据变成一个生产要素。
零知识科技在隐私计算行业活跃三年时间,我对数据行业的判断是,目前我们处在企业内部的数据整合阶段,比如说去年数据行业什么最火?数据中台。数据中台把一个大型企业的各个数据触点整合,把各个系统打通最终可以实现企业内部的数据分析、快速决策,这个阶段也会再持续一段时间,从之前的信息化到去年的数据中台概念到未来的企业内部数据整合,我认为是一个非常大的市场,这也诞生了很多上市公司,优秀的大型企业。
我感觉未来的十年当中一个重要的驱动因素就是企业间的数据流转。数据融合可以提升数据价值。但是每年国内的灰黑产交易,包括个人隐私分析的隐私数据都会造成非常高额的经济损失,这部分不再一一列举。我们需要通过技术赋能保护个人和公司隐私,这也是一个价值趋势。
长期来讲肯定是通过立法手段以及大众认知解决个人数据的安全管理,无论通过消费者还是用户通过授权方式或者技术的方式,最终实现的是个人管理个人数据。
目前隐私计算的市场渗透率是极低的,只有1%的公司是在共享或者变现自己的数据,而且他们并没有用安全的手段,大数据市场规模也是巨大的。假设未来隐私计算可以变成数据共享的基础设施,这个市场将是万亿级的市场。
美国非常著名的研究机构Gartner认为隐私计算处于一个爆发的前期。我觉得有几个催化剂,首先是监管,第二就是它的渗透力极低。第三就是潜在市场供应巨大。假设所有的数据能够做确权,交易,进而榨取数据价值,那么无论对企业还是对社会都可以产生巨大的正面作用。
技术安全多方计算MPC
接下来说我们做的技术安全多方计算MPC。MPC是1982年由我国的姚期智院士提出的加密数据上操作方法,他当时提出一个百万富翁的问题。比如说比尔盖茨和巴菲特两个人相比谁更有钱,又不参考福布斯,那怎么不向第三方暴露有多少钱的情况下比谁更有钱。实际上是通过两方的安全多方计算利用混淆电路解决这个问题。实际上怎么做的呢?他需要把原始数据在一个分布式网络当中,有多个参与方,比如说比尔盖茨和巴菲特两个人共同参与,他们各自持有数据进行输入,把这个数据通过一些算法,比如说混淆电路或者是秘密分享做加密,直接在密文的数据上面跑,就是运算逻辑,然后在问题当中采用比较的运算逻辑最后产生一个结果。
这是一个典型案例,其实就是密码学学界和工业界一直处于肩并肩往前推进的状态,其实它和AI有一定区别。AI领域目前工业界还是利用十年、二十年以前的神经网络、深度机器学习的框架。但是密码学的学界和工业界是挨的比较近的,最近的方向就是两方可以变成多方、甚至安全多方的计算协议,同时也有一些不同的技术路径。
技术这边不再赘述了,非常直观的举一个例子。一个传统的数据分析,我们把三方的数据汇集到一个可信第三方,一个大数据公司做分析、建模,但是安全多方计算的环境下或者联邦学习,都是无需一个可信第三方,直接把密文的数据做一些秘密分享等等,我们直接在密文的数据上构建一个计算逻辑,最后获得一个结果。
它有几个层级:首先是无需第三方的归集,第二就是参与方发出的都是密文数据,整个运算过程中没有明文数据存在,这样就可以保护各个数据方的隐私。
隐私计算的一些应用场景其实非常多,每个垂直行业都有数据共享的需求。目前看起来它的特点就是隐私不泄露。这些数据类型可能是比较敏感的生物信息、个人金融信息等等。目前我们探索比较深的场景是金融风控,还有像反欺诈等等这。它在医疗、精准营销这些领域也是有很多应用的场景。
企业或者部门,或者企业之间、部门之间的数据共享场景通常包括模型的安全分析和训练,就是多方的数据训练一个模型或者做一次模型推断。比如说联合的黑名单查询、数据碰撞,安全的数据匹配等等。
安全多方计算和区块链之间的协同作用
安全多方计算和区块链之间其实是有非常多的协同作用。从概念上来讲安全多方计算的理念和区块链非常接近。区块链大家可能知道一组互相不信任的节点共同维护账本,保证账本的安全性不可篡改性。安全多方计算是互相不信任的节点共同在密文的数据上进行运算,最终共同获得一个结果,所以它们两个都是分布式的、去中心化的。当这两个结合的时候可以产生1+1大于2的效果,比如说去中心化,可靠性更强,每次查询的记录可以利用区块链做一次指纹的上链,可追溯不可篡改,同时通过隐私计算可以保证数据采用的集约性以及企业和个人的保护。
目前我们和一些联盟链,包括以太坊这样的公链合作,可以搭建在他们上面调用隐私计算网络,最终一些数据的查询包括清算是在区块链上执行的,我们相信这样的方案也适合目前各个行业,包括政府正在大力推进区块链,我们就可以把隐私计算加上区块链同时赋能数据共享这个行业。
目前数据融合也是一个国家战略,中国信通院工信部旗下的研究机构开始制定一些标准。比如说基于安全多方计算的技术要求和测试方法。我们也有参与的像可信硬件、联邦学习这些不同的新技术的初步标准。同时国际上像IEE、IEC都在推进安全多方计算。除了我们之外还有蚂蚁金服、百度、阿里巴巴这些公司的参与。
刚才讲了很多关于技术的方面,我也觉得在过去这两年里我们也做了不少的尝试,一会儿跟大家分享一些场景。目前我们的场景主要集中在金融行业、更多的是赋能企业之间的数据共享。但是我认为可能三五年之后隐私计算可以更多利用到个人的隐私保护里面去。
目前其实个人对于自己的数据价值还没有那么强的认知,我认为监管是一方面,更多可能需要各个行业有这样的推手,希望大家知道自己的隐私或者自己的数据是非常有价值的事情。
行业痛点:隐私的数据无法被有效的共享
首先我想跟大家分享两方的安全计算场景,金融模型的安全分析。这两方一个是金融机构,比如说像资管的公司,大型资管机构。另外是模型的提供方——金融科技的机构,有自己非常好的模型,比如说风控模型对持仓的风险计算模型。比如说像归因、风控等等,这个场景下其实金融机构的持仓数据有非常强的保密要求,不可以泄露出来。同时金融科技的模型也需要做保密,尤其是模型参数需要保密。我们实际上提供了一条安全的API,在这条API把金融机构的持仓科技,以及金融科技Fintech核心参数,两方作为密文输入进来,整个运算过程中,我们作为技术提供方是不需要参与到运算的,就是我们不存在拿到任何一方客户的数据。
接下来就是两方共同做计算,在密文的数据上直接跑模型,最终得到一个结果,可能是风控的结果或者归因的报告,这样的话无需公开运算参数和交易数据,同时也不会泄露任何交易策略或者模型的一些情况。
这个案例其实我觉得目前也是很多资管机构正在寻求的,他们可能之前应用的是第三方的分析模型,但是随着他们对数据的保密要求越来越高,也会切换到用这种安全多方计算或者可信计算做可信模型的分析。
第二个就是敏感数据以及黑名单的安全查询,这是两方的碰撞场景。比如说一个银行想查一个大数据公司的黑名单。但是他并不可以把自己想查谁,比如说我查张三、李四这些数据告诉第三方的提供商,原因是提供商可能把这些用户的信息卖掉,或者是储存下来,这样我们可以用安全多方计算做一个两方的安全匹配。就是相当于我们把中间的交集部分求出来,同时不暴露查询的条件——就是查了谁。
之前的方案,比如说我需要一个第三方的,需要做数据脱敏或者数据的混淆最后导致匹配率非常低的,同时费用也会比较高。其实用安全多方计算可以更简单的同时更便宜地解决这个问题。
目前安全多方计算也可以满足比较标准化、大规模的查询场景,基本上效率在可接受、可商用的一个层次。
第三个场景其实是一个跟区块链结合比较紧的联合风控场景。我刚才已经提到有黑名单共享,其实更进一步,尤其在金融机构的角度更想做多维度的数据风控,就是信贷风控或者保险反欺诈或者其它的风控场景。这个时候很有可能需要多个数据源,比如说需要五个不同的数据源一起组一个模型,甚至训练一个模型。这种情况下我们五方都不可以把数据给到互相,因为相当于泄露。这样的情况就可以通过安全多方计算或者联邦学习的方式做模型推断或者模型训练,最终得到的是一个风控结果。我为每次数据的调用付费而不是为了数据本身付费,这样其实也保证了这些数据源的数据安全。
目前很大的趋势就是各地都在成立大数据局、大数据交易中心,他们希望把一些当地企业的数据做变现。在这种大环境下我们更需要用隐私计算的方式赋能这些数据的安全、合规的共享,比如说和企业的共享,和金融机构的共享甚至是跨政府部门、跨省的数据共享。
这个场景下同时可以用到区块链,我们可以用联盟链收集这些数据指纹,可以把查询记录上链,这个时候就不会存在之后有查询方面的纠纷或者监管机构可以回去查数据指纹,可以有一个全局的合规和把控。
总结一下就是目前的行业痛点是隐私的数据无法被有效的共享,同时一些风控,比如说复杂的风控模型由于以前的数据提供方不合规所以目前也停摆。所以可以用安全多方计算加区块链的联合解决方案赋能这种风控的一些场景。
同样在营销领域也有非常多的两方或者多方做联合查询或者联合计算,甚至联合建模的一些场景。比如说像异业的合作,比如说保险公司和电商他们想要找到共同的用户标签优化自己的保险产品或者投放策略。或者像广告主和平台,他们想去更好地追踪自己的转化率,ROI等等这些数据都可以用到安全多方计算。同样在营销场景当中区块链起到的更多是去记录所有的查询,去记录所有的查询包括运算的发生最终可以有一个溯源机制。
最后一个是我们跟一个专门做大宗商品风险管理的机构一起设想的一个场景,当然这个场景还没有实施,只是挺有意思的可以跟大家讨论分享的案例。
目前很多央企或者地方国企有比较大的大宗商品的风险敞口。中航的石油宝在期货交易中损失很大。为了提高能力同时保证企业的机密数据,这些数据到底有多少风险敞口。其实从国家层面可以对整个行业做一个风险筛查。比如说敞口大于一个什么比例,同时我想知道全行业的风险平均的情况,这个时候我们都可以用安全多方计算或者隐私计算做调查。
如果可以把这些数据按时的提交,同时能找到一些非常特定的风险情况,比如说某个公司的重大的风险敞口,这个其实能非常有效的保障投资人,保障国企的抗风险能力。
刚才主要跟大家分享了几个案例,这些案例主要在金融行业,也是我们目前主要进行的相对标准化,可以通过SDK或者一些解决方案能快速搭建的一些场景。通常情况下都是两方或者多方需要联合参与,因为一般都有两个数据的提供方。
行业未来的终极发展目标:保护每个人的数据
最后我想介绍一下我们团队,我们是在大概三年前成立的。我之前在纽约大学,在复星集团,其他成员均有在国内外顶尖科研、技术和金融机构有长期工作经验。
隐私计算这边我们一直都是属于学界带着工业界往前走的状态。最新的安全多方计算的协议也是在过去两三年才真正能有一个比较大的效率提升。SPDZ安全多方计算协议在2014年刚推出的时候比明文计算慢几千倍、上万倍左右。但是去年的时候最新的协议可以做到几十倍的慢于云计算的效率。
中化集团,京东还有复星,我们是主要是把隐私计算模块搭载在他们的数据中台当中。
我觉得整个隐私计算行业还是处于非常早期的阶段,我们也是要想从哪个行业入手把这样一个平台级的技术推动出去。我们目前觉得在金融领域,因为它的数据价值比较高,同时金融领域的信息化程度比较深,数据结构化程度比较高,这个领域我们做了比较多的实践,但我相信和未来五年、十年隐私计算的发展相比只是迈出了一小步。
这个行业未来的终极发展目标是保护每个人的数据,大家把互联网叫作信息的高速公路,其实隐私计算就是保障这条高速公路运转以及收费站。把数据做确权,最终通过这些数据产生的价值可以回馈给每个用户,或者回馈给这些企业,真正实现数据成为生产资料的宏大目标。
声明:本内容为作者独立观点,不代表 CoinVoice 立场,且不构成投资建议,请谨慎对待,如需报道或加入交流群,请联系微信:VOICE-V。
简介:全球区块链资讯、数据和金融服务平台
评论0条