2020年10月13日,备受关注的《中华人民共和国个人信息保护法(草案)》提请十三届全国人大常委会第二十二次会议审议。个人信息保护法的制定,将为个人信息保护提供更加有力的法律保障。为此,我刊专访了我国资深网络与信息安全专家、中科院院士冯登国,请他围绕个人信息保护法制定的重要意义、国内外个人信息保护立法现状、国内外隐私保护技术研究进展和实效,以及如何进一步加强个人信息保护等话题进行深入分析和阐述。

记者:近年来您一直关注大数据环境下的个人数据安全与隐私保护,首先请您谈谈个人信息保护法的制定对于个人隐私保护的重要意义。

冯登国:当前,信息技术领域新技术不断涌现,在推动我国国民经济向前发展的同时,对公民的数据安全与隐私保护带来了巨大挑战。比如,大量用户的信息被用于模型训练、个性化推荐模型中。由于动辄涉及上亿规模用户的个人信息,个人数据保护已成为事关国家安全与经济社会发展的重大问题。随着个人信息保护法等一系列法律法规的制定和出台,为我国个人信息安全和隐私保护提供了更好的法律依据和基本保障。

近年来,我国政府高度重视网络空间数据安全与个人隐私保护问题,逐步加强数据安全政策法规建设,鼓励科研机构针对数据安全与隐私保护技术进行技术攻关。比如,2016年11月发布了《中华人民共和国网络安全法》,随后发布了一系列技术标准规范,对网络产品、服务及关键基础设施的安全性提出了具体要求;2018年5月,推荐性国家标准《个人信息安全规范》正式实施,对个人信息收集、保存、使用和公开披露等环节提出明确要求;2019年10月,出台了《中华人民共和国密码法》,明确规定“任何组织或者个人不得窃取他人加密保护的信息或者非法侵入他人的密码保障系统”;今年6月,全国人大常委会审议了《中华人民共和国数据安全法(草案)》,明确指出“任何组织、个人收集数据,必须采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”;本次审议的《中华人民共和国个人信息保护法(草案)》(以下简称个人信息保护法草案),明确定义了个人信息的范围,对个人信息处理方法进行了规范,详细规定了数据处理者的安全保护义务与责任。这些规定将在个人信息保护法实施后,有助于监督并推动互联网企业在个人数据隐私保护上投入更多力量,进一步提升我国个人信息安全保障能力,以及用户隐私数据的管控水平。

与此同时,法律也将为我国数据安全与隐私保护技术的发展带来新机遇。来自现实中的巨大需求,将促进数据跨域管控、密码、隐私保护等技术与大数据、人工智能、区块链等技术之间的深度融合,不断催生出新方法和新技术,以满足个人信息保护的实际需求。

记者:“一个渠道录入,多个渠道滥用”,大数据环境下,个人数据安全与隐私保护已成为全球各国关注的热点问题。能否请您介绍一下,当前各国对个人信息保护采取的应对举措和相关立法情况。

冯登国:在我国,过度采集、过度利用个人信息的现象长期存在。例如,自2019年以来,App专项治理工作组评估通报了数百款App存在个人信息收集使用问题。在某些网络交易平台上,只要花2元钱就能买到上千张人脸照片。此外,普通用户或多或少都曾遇到过在自己不知情的情况下,个人信息被用于产品推荐的情况。这些现象在法律实施后将会有所改观,个人信息保护法出台后将赋予普通老百姓更多知情权与自主选择的权利。参考欧洲的情况,在欧盟推出的《通用数据保护条例》(General Data Protection Regulation,简称GDPR)正式实施后,脸书与谷歌等多家公司就在多国遭到起诉。在意大利,脸书公司被起诉误导消费者错误使用自己的隐私数据。例如,在用户注册时并没有明确告知用户其信息将被用于商业目的;或者未经用户同意,默认将消费者数据发送给第三方网站和应用程序等。这些行为阻止了用户在自由、知情下做出选择,造成“不良的影响”。截至目前,欧洲已经对相关企业发出了逾十万起违规通知,并开出上亿欧元罚款。

除欧盟以外,目前国际上已有多个政府或地区陆续出台了相关的法律法规。例如:2017年,日本部署实施了《个人信息保护法案》等多项法案;2018 年,美国加州为保障本州消费者的各项隐私权利,通过了《加利福尼亚州消费者隐私法案》(California Consumer Privacy Act,简称CCPA)。该法案于2020年1月1日生效,对于年收入超过 2500 万美元、或拥有超过50000个消费者以上的商业数据、或消费者个人数据的销售额占年收入一半以上的企业行为进行约束。由于美国90%的互联网公司,包括谷歌和脸书都位于加州,所以该法案在国际上具有较大影响力。上述法案的实施情况都可供我们借鉴。

记者:欧盟GDPR对企业和个人的信息保护非常严格,相对于GDPR,您认为个人信息保护法草案具有哪些特点?二者有哪些异同?

冯登国:欧盟推出的《通用数据保护条例》严格限制了企业对个人信息的收集、处理,保护欧盟公民的权利。在数据主体权利、数据处理者义务、法律责任等方面,个人信息保护法草案中的要求与GDPR大致相当,但在具体要求上两者有所不同。我们可以从以下几个方面简单比较一下。

个人信息保护法草案中所定义的个人信息范围与GDPR中的“个人数据”略有不同。个人信息保护法草案中定义“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息”。这一方面强调了数据的可识别特性,即与已知特定个体有关的信息都属于个人信息;另一方面,又明确规定了匿名化处理后的信息不属于个人信息,且指出“匿名化”指的是“个人信息经过处理无法识别特定自然人且不能复原的过程”,而不是简单的“去标识化”。匿名化技术要求有待于相关技术标准予以更详细的说明。而在GDPR 中,个人数据指的是“任何已识别或可识别的自然人(“数据主体”)相关的信息;而一个可识别的自然人是一个能够被直接或间接识别的个体,特别是通过诸如姓名、身份编号、地址数据、网上标识,或者自然人所特有的一项或多项的身体性、生理性、遗传性、精神性、经济性、文化性或社会性身份而识别个体”,将匿名化作为数据保护原则的措施之一。

个人信息保护法草案中不仅详细说明了个人所具有的知情权、决定权、拒绝权等多项基本权利,还明确说明了个人具有不因行使权利而受到歧视的权利。要求个人信息处理者“不得以个人不同意处理其个人信息或者撤回其对个人信息处理的同意为由,拒绝提供产品或者服务”。个人信息保护法草案与GDPR都明确了自然人对自动化决策的拒绝权。个人信息保护法草案定义了自动化决策是一种“利用个人信息对个人的行为习惯、兴趣爱好或者经济、健康、信用状况等,通过计算机程序自动分析、评估并进行决策的活动”,要求自动化决策公开透明公正。个人有权拒绝仅通过自动化决策的方式做出的决定,个人信息处理者提供服务时,应同时提供不针对个人特征的选项。

此外,与GDPR类似,个人信息保护法草案也对跨国数据传输进行了规定,将所有的个人信息出境纳入管理范围,明确了何种情况下可向境外提供个人信息。此外,个人信息保护法草案中强调了对等原则,指出对于在个人信息保护方面对我国采取歧视性的禁止、限制等措施的国家或地区,我国可采取相应措施。

记者:技术是法律法规制定和落实的有效支撑,作为长期从事信息安全研究的权威技术专家,请您介绍一下当前国内外个人隐私保护技术的研究进展情况。

冯登国:真正落实法律法规中的各项要求离不开关键技术的支撑,实现个人信息保护法草案中规定的各项要求同样也需要众多关键技术,比如,数据跨域管控技术、密码技术、隐私保护技术等。

大数据环境下,我们既要高度共享数据,有效发掘利用数据,还要有效控制数据,保护用户隐私等安全需求,二者存在明显冲突,也使隐私保护面临“用户身份匿名保护难、敏感信息保护难、隐私信息安全管控难”等三方面技术挑战。针对这些挑战,人们开展了多方面的研究和探索。综合来说,隐私保护与风险防控技术的研究现状与热点主要有以下几方面体现。

1. 身份匿名保护技术 通过对数据泛化、对网 络结构扰动等手段可实现用户身份匿名。当前身份匿名所针对的准标识符从单一的属性数据、拓扑结构数据发展到复合类型数据,且基于K-匿名技术体系的隐私保护方法局限性日益凸显,基于差分隐私的保护方法受到更多关注。该技术的研究热点主要为:基于多源异构数据集的匿名保护技术,面向位置轨迹分析的匿名保护技术,以及本地差分隐私保护技术等。

2. 敏感信息隐私挖掘与防护技术 用户属性数据内容丰富,具有鲜明的个性化特征,但同时也包含大量敏感信息。在当前技术体系下,即使敏感信息被隐藏,也容易被数据处理者通过建模分析挖掘出来。该技术的研究热点包括:基于差分隐私模型的敏感信息隐私保护方法,人工智能方法在敏感信息隐私挖掘与保护中的应用等。

3. 密文检索与密文计算技术 加密是保护数据隐私的重要手段。为了不丧失可用性,要求服务器直接对加密数据实施检索、处理与计算的能力。当前该技术的研究热点为:高效安全的密文检索方法和实用安全的密文计算方法。

4. 基于风险分析的访问控制技术 当前,由于开放环境下数据的跨域流动,经典的访问控制模型已不适应大数据环境下的访问控制需求,需要“自底向上”的访问控制模型。相关研究热点包括:基于风险分析的访问控制机制,以及基于机器学习的策略与角色挖掘方法。

近年来,我们也在密文检索、大数据访问控制、敏感信息保护、去匿名攻击等方面开展积极研究并取得一定成果:提出了大数据安全与隐私保护理论基础与通用技术体系框架,以及在智能电网场景中的应用示例方案;对影响用户身份匿名的位置与轨迹因素进行了深入分析,提出了包括轨迹隐含态建模、轨迹划分等多种机制在内的一系列轨迹隐私分析与保护方案,实现了大数据环境下用户去匿名化与隐私保护;提出了基于本地差分隐私保护机制的隐私数据保护方法,实现了对用户口令、属性等敏感信息的有效保护与安全管控;提出了支持多维区间检索、skyline检索的可搜索加密方案,基于风险量化的访问控制机制,实现了大数据环境中的隐私数据密文管理;为敏感应用提供了一种基于ARM CPU的高安全并且可证明的可信执行环境构建方法。相关成果发表于CCS、SACMAT、DASFAA等重要国际会议。以之为基础,编著了《大数据安全隐私保护》一书,对现有大数据安全与隐私保护技术方法与认识开展了系统梳理。

记者:差分隐私保护等已在国际上走入应用,并被学者认为是目前理论基础最坚实,应用质量可得到证明的一种隐私保护技术。请问我国差分隐私保护技术在理论层面的研究状况是怎样的?在技术应用方面进展如何?

冯登国:作为一种隐私保护技术,差分隐私属于当前学术界和产业界关注的研究热点。差分隐私是Cynthia Dwork在2006年针对统计数据库的隐私泄露问题提出的一种新的隐私定义。在差分隐私保护下,数据库中的计算结果对单个数据的变化记录不敏感,从而使单个数据在数据库中产生的隐私泄露风险被控制在极小、且可接受的范围内。采用差分隐私技术对数据脱敏处理后,公开发布或共享交换对用户隐私不会造成实质性影响。而且, 差分隐私技术提供了量化评估方法,使不同参数处理下的数据集所提供的隐私保护技术具有可比较性。

近年来,人工智能技术应用越来越普及,差分隐私技术也可以实现统计机器学习与深度学习中的用户隐私保护,同时,本地化差分隐私研究也受到越来越多的关注。之所以称为“本地化”,是因为数据在用户本地进行随机化扰动。由于用户的原始数据并没有离开本地,因此,不依赖于一个可信的集中存储服务器,更容易得到用户认可。当前,基于本地化差分隐私协议,不仅可以实现用户频率统计、均值估计,还可以实现对Key-Value数据、图、轨迹等复杂数据类型的处理,以及对线性回归、主成分分析(PCA)、线性判别分析(LDA)等机器学习算法的支持。目前研究者还在进一步探索降低结果误差的新方法,使其更接近于实用化。

与其他安全技术一样,差分隐私方案的部署与实施也需要具体技术标准、规范的引导。当前,差分隐私技术越来越成熟,受到产业界的关注,不仅国际上已走入应用,国内也有一些企业与单位已实际部署或者正在考虑部署。但在差分隐私方案落地过程中,仍有许多技术问题需要规范,缺少具体的技术标准,特别是算法层面上的标准来指导隐私保护算法的实现,否则将影响实际保护效果。例如,随机化算法实现是否符合国家标准要求、匿名化的技术指标选择、隐私预算选择等等,相关内容应在技术标准中予以细化。

此外,差分隐私技术也有一定的适用范围,并不是所有的隐私保护场景都适合。差分隐私技术的优势是适用于开放场景,且计算效率高,但代价是数据失真。在有条件的场景下,还可以采用安全多方计算、密文检索、同态加密等其他技术,实现个人信息在传输、存储、运行、计算过程中的隐私保护,避免数据精度损失。

记者:面对大数据时代下的信息高度共享和发掘利用,以及来自不同个体对隐私保护的不同理解,现有隐私保护技术能否有效满足人们的隐私保护需求?能否为相关法律法规的落实提供技术支撑?如有不足应如何强化?

冯登国:落实相关个人信息保护规定需要大量隐私保护技术支撑,其中不仅包括差分隐私等数据扰动类技术,还包括安全多方计算、同态加密、匿名认证等密码类技术,以及可信计算、访问控制等技术。各项技术的定位与服务场景不同,总体上能够覆盖个人隐私数据采集、存储、传输、计算、智能分析、汇集披露等各个环节。未来,为了有效支撑个人信息保护法的具体实施,一方面,仍然需要在学术领域不断推进各项前沿技术,进一步减少误差,提升性能指标,更好地满足实际应用需求;另一方面,需要金融、电商、电力等领域结合行业数据特点,综合运用现有技术,系统地构建个人信息保护解决方案,提升组织或企业对个人隐私数据泄露风险的识别、控制、处置与修复能力,实现动态与全面管控。

记者:法律法规的出台是第一步,下一步,您认为我们还要加强哪些方面的工作,以实现对个人信息的保护?

冯登国:首先,要建立一系列配套的技术规范与测评规范,建立并完善相关的测评制度,最终确保个人信息保护法出台后数据主体所具有的各项权利得到充分保障。

其次,要注重法律法规及标准的宣贯工作,更好地引导企业逐步提升技术,实现相关关键技术与系统的升级,促使其为用户提供安全、便利的数据服务。

最后,个人信息保护是全社会广泛关注的问题,实现个人信息保护不仅要有法律的保障,而且要有极强的个人意识,更要有技术的有效支撑,并不能简单地对现有技术“踩刹车”或者“一刀切”。未来,应在个人信息保护法等法律法规的指导下,不断凝聚企业和科研机构的共识,使得各项技术要求更为合理化,同时严格执法,推动个人信息保护工作稳步、有序地进行。