竞拍会上
拍卖师:阿易,你出多少?
阿易:保密。
另一家:也保密。
拍卖师:恭喜阿易成功拍下这件藏品。
为什么是阿易拍下了?这可不是什么文字游戏,而是可落地实现的场景:在保护双方出价不为人所知的情况下,还能知道谁出的价格更高。这就是隐私计算的“可用不可见”特点。
隐私计算是指在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术,包含了数据科学、密码学、人工智能等众多技术体系的交叉融合。在隐私计算框架下,参与方的数据明文不出本地,在保护数据安全的同时,实现多方数据协同应用和联合计算,解决了又要用数据又要保护数据的矛盾。
比如,在抗击新冠肺炎疫情的过程中,全球疫情数据共享过程就运用到了隐私计算,这使得各方可以在不公布详细数据的情况下,联合其他科研人员协同进行病例样本基因组的联合分析并共享结果,实现了对病毒流行病学情况的实时追踪和对未来毒株演化的预测,成为助力抗疫情的一把利剑。
正如北京大学计算机系肖臻所说:隐私计算的目标就是数据所有权和数据使用权的分离。
听起来很不可思议,如果看不见数据,又怎么能做计算分析呢?一起来了解隐私计算的三个主流方向。
一、以密码学为核心
1.多方安全计算
多方安全计算是以密码学为核心的隐私计算的代表,其主要逻辑是,在没有可靠的第三方(中介)的情况下,各方在一起计算之前先对自己的数据进行加密,每个参与方无法得知其他方输入的信息,只能得到计算结果。
2.差分隐私
差分隐私是密码学中的一种手段,通过在查询结果中加入随机噪声的方法,确保公开的输出结果不会泄漏个体的数据集归属信息, 使得攻击者无法通过公开发布的结果推断出个体样本的隐私信息,以此实现隐私保护。
3.同态加密
同态加密指的是先对数据进行基础的加密操作,然后直接使用加密后的数据做运算(一般的加密无法做到运算),并且,这样得出来的计算结果和用同一运算方法计算原数据所得到的结果是一致的,即先计算后解密等价于先解密后计算。这样,既可以保护原始数据不被知晓,还能让计算方在节省解密成本的同时,完成计算任务。
二、依托可信硬件
可信执行环境是在硬件上实现数据保护,其核心思想是构建一个独立于操作系统而存在的可信的、隔离的机密空间,数据计算只能在这个安全环境内进行,通过依赖可信硬件来保障其安全。
如果没有授权代码,则无法执行访问数据等操作。这相当于是将数据与外界隔离开来,这也是可信执行环境最本质的属性。
可信执行环境提供的执行空间安全性更强,比安全芯片功能更丰富,并且不会对隐私区域内的算法逻辑语言有可计算性方面的限制。但由于这一技术是在硬件上实现,需要对该硬件有充分的信任,即对提供该硬件的厂商有较高的可信度要求。
三、联邦学习
联邦学习由谷歌在2016年提出,主要用来解决如何在数据不出域的情况下,联合多个终端中的数据进行模型训练的问题,并应用在输入法预测改进等场景。
联邦学习的本质是分布式的机器学习,在保证数据隐私安全的基础上,实现共同建模,提升模型的效果。联邦学习不需要参与方把数据传输到中心模型上运算,而是在本地训练好一个小模型后,把训练后的模型和其他方训练好的模型传给系统平台做整合调试,以此达到优化目的。这种方法既实现数据不出本地,又完成了联合计算和建模的目的。
联邦学习按数据的特点分成三种:
1.横向联邦学习
使用与特征重合较多,而样本重合较少的数据集间联合计算的场景。
2.纵向联邦学习
更适用于样本重合较多,而特征重合较少的数据集间联合计算的场景。
3.联邦迁移学习
适用于数据集间样本和特征重合均较少的场景。在这样的场景中,不再对数据进行切分,而是利用迁移学习来弥补数据或标签的不足。
从隐私计算的几个重要技术来看,似乎是平台机构之间的一些机密保护措施,那这对于用户来说有用吗?用户的目的不只是不想自己的数据不被卖出去,还希望自己的隐私不要被平台知晓。
实际上用户自身的数据保护也是隐私计算的一个重要应用场景。比如之前一篇文章我们提到,脑电数据可以和推荐系统进行结合,但由于此类数据更加私密和重要,对数据保护的要求会更加严格,在这种情境下就可以用上联邦学习的技术来保护用户隐私:
把模型放在用户的设备上,用户所产生的数据只在本地进行计算而无需传给平台,然后根据计算结果将一些需要调整的模型参数反馈给平台,让平台优化模型即可。这样既能不断为用户提供更好的个性化服务,又保护用户的真实隐私数据无法被平台或其他第三方知晓。
有观点认为,数据已成为比肩石油的基础性关键战略资源,2020 年 4 月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,也将数据同土地、劳动力、资本、技术等传统生产要素并列,作为一种新型生产要素参与分配。
这都说明了数据不仅仅是涉及到个人的信息安全、企业的商业资源保护,还关乎整个社会的价值生产,因此,数据保护至关重要且亟待解决。
综上,隐私计算的“可用不可见”特点,是有效兼顾数据使用和数据的保护的一类重要技术。目前这项技术已应用在医疗、金融、营销等多个领域,虽然还存在市场信任、法律定位、自证安全等难题,但我们相信在研究者和技术人员的不断努力下,隐私计算将更加完善,实现更广泛的数据价值挖掘和更彻底的隐私保护。
参考文献:
[1]唐林垚.隐私计算的法律规制[J].社会科学,2021(12):117-125.DOI:10.13644/j.cnki.cn31-1112.2021.12.011.
[2]赵岩,刘宏伟.推荐系统综述[J].智能计算机与应用,2021,11(07):228-233.
[3]闫树,吕艾临.隐私计算发展综述[J].信息通信技术与政策,2021,47(06):1-11.
[4]李凤华,李晖,牛犇,陈金俊.隐私计算——概念、计算框架及其未来发展趋势[J].Engineering,2019,5(06):1179-1192+1307-1322.
[5]王平水,王建东.匿名化隐私保护技术研究综述[J].小型微型计算机系统,2011,32(02):248-252.
[6]程啸.论大数据时代的个人数据权利[J].中国社会科学,2018(03):102-122+207-208.
[7]李效光,李晖,李凤华,朱辉.差分隐私综述[J].信息安全学报,2018,3(05):92-104.DOI:10.19363/J.cnki.cn10-1380/tn.2018.09.08.
[8]北京大学计算机系肖臻《隐私计算-云栖大会》演讲https://search.bilibili.com/all?vt=74117888&keyword=%E4%BA%91%E6%A0%96%E5%A4%A7%E4%BC%9A%E9%9A%90%E7%A7%81%E8%AE%A1%E7%AE%97&from_source=webtop_search&spm_id_from=333.1007
[9]《隐私计算白皮书》来源:隐私计算联盟、中国信通院云大所
[10]《中国隐私计算行业研究报告》来源:艾瑞咨询
[11]百度百科
注:图片源于自制和资料
专业指导:
易念科技首席数据分析师李芝喜
易念科技高级软件工程师杨伟杰