差分隐私（一）

为什么要做差分隐私？

实际工程意义
随着大数据和人工智能技术的兴起，越来越多的企业都在尽可能多的从用户数据中挖掘其价值，随之而来带来的一个问题是：大数据下个人隐私数据保护的问题。虽然目前该问题在工业界还没有得到实际的重视，但未来一定会成为制约大数据发展的一个瓶颈，人工智能的发展有赖于计算能力和数据量的提升，差分隐私解决了收集用户隐私和改善服务之间的矛盾，因此这样的技术，工业界包括互联网公司，应该是有实际需求的。包括我们做威胁情报，实际上也是收集数据的同时为用户提供服务。
理论研究意义
目前国际上保护隐私一共有三个解决方案：差分隐私（Differential Privacy）、同态加密（Homomorphic encryption）、零知识证明（Zero-knowledge proof）。差分隐私作为一种严格数学意义上定义的隐私保护框架，具有理论研究意义。

差分隐私怎么来的？

在2006年，美国的Netflix公司（一家在线影片租赁提供商）办了一个机器学习的比赛，旨在提高自己推荐系统的准确度。相当于淘宝的“猜你喜欢”功能，在这个比赛中，Netflix公布了一个数据集，里面包含了一些真实用户的浏览数据，为了保护隐私，该公司把用户ID和识别码一类的可以唯一识别用户的信息都抹去了。Netflix声称这样我们就保护了用户的隐私。实际上，这也是目前很多公司的做法，就是对敏感数据直接抹去之后，再发布数据。然而，事实上在这个数据集发布一个月后，两个学者利用record linkage的技术，挖掘出了这个数据集中某些记录对应的用户是谁。原理就是从网上（比如IMDB，类似于中国的豆瓣电影）挖掘一些包含用户信息的电影浏览记录，然后把这些记录和Netflix数据集里的浏览记录进行匹配，就可以反向推理出在Netflix数据集中的个体对应的是哪些人，即攻击者从其他渠道获得了关于该数据集的背景知识，于是这些人在Netflix中的购买记录等隐私就泄露了。

这个事件告诉我们：如果你要公布一个数据集，仅仅粗暴的移除其中的ID这类敏感信息是完全不足以保护隐私的。于是在该事件发生之后的同一年，微软的C. Dwork提出了一个概念，叫做Differential Privacy，也就是差分隐私，由此诞生了差分隐私的定义。此后数十年，很多学者相继开始该领域的研究。

差分隐私是什么？

通俗的说，差分隐私的思路就是，假如我现在想公布一个数据集，给大众做数据分析或者数据挖掘，但我又想保护里面每一个个体的信息不泄露，那么一种可行的手段就是给这个数据集注入一些噪音或者扰动。当然这个扰动不能随便加，否则数据就丧失了可用性。然而扰动也不能太小，否则就起不到保护隐私的作用了。C. Dwork在他的论文中提出了一个数学上的描述，来测量一个扰动机制究竟能够带来多大程度上的保密性。简单来说就是，你给我一个数据集A，假如我有一个扰动机制，可以让我先对A做一个扰动得到A’，再从原数据集A里随意拿掉一行记录得到B，对这个数据集B做扰动得到B‘，如果得到的A’和B’几乎是一模一样的（对同一随机算法这两个数据集的输出概率分布几乎相同），那么我就认为这个扰动机制可以保护隐私。因为在这个扰动机制下，A里面任何单独一行数据存在或不存在都几乎不影响结果。
更简单的说，就是：我在或者不在这个数据集中，对查询结果没有影响。反过来说：攻击者通过对该数据集的任何查询或者背景知识都无法准确推断出我是否在这个数据集中。
这是一种最强大的隐私保护定义。为什么是最强大呢？因为既然你在不在这个数据集中都不会影响最终的查询结果，那么我们可以认为你就不在这个数据集中，而如果你都不在这个数据集中，你的数据自然不会泄露。
事实上，不管各路学者怎么定义或者研究隐私保护，最终都会落到差分隐私上来，差分隐私是研究隐私保护问题无法绕过的。

目前的一些研究方向

分两个方面，一个是理论研究层次，另一个是应用研究层次。

理论型研究：

主要是数据发布机制和数据挖掘机制的研究。

数据发布机制
分为交互式发布和直接发布。交互式发布有点像数据库的中间件，就是针对用户每一次的查询，数据库算出结果之后，该结果进行差分隐私算法处理之后再呈现给用户。用户无法拿到原始的数据，而只能通过对数据库的查询获得加噪音处理后的结果。直接发布就是把整个数据集一次性的进行差分隐私处理后完整公开，用户可以拿到这份数据，但是单一的每条记录可能都是改过的，只是在统计学意义上，依然保留原始数据的特征。依然可以进行数据挖掘、分类等。
数据挖掘机制
主要是对传统的机器学习算法进行修改使其符合差分隐私的定义。

这两个方向的难点都是如何做到数据有用性与隐私保护性的平衡，主要是设计一套合理的机制及算法。

应用型研究：

差分隐私应用于推荐系统。目前的推荐系统需要利用大量用户数据进行协同过滤，而在这点上，推荐系统中用户数据的隐私保护就成为了一个问题。如何即能保证用户数据的隐私，又能给其进行合理的推荐，是值得研究的一个点。（在微博的情感分析、主题挖掘模型中加入差分隐私，也属于这一类）
差分隐私解决基于位置服务（LBS）的隐私保护问题。现在很多手机有定位功能，位置信息属于个人隐私信息，而有很多APP是基于位置的服务的（外卖、地图等），如何保护个人位置隐私数据的同时，商家又能够提供相应的服务，传统基于位置的隐私保护多用的是近似算法或一些模糊算法，能否和如何将差分隐私引入该领域去解决这一问题？
差分隐私与分布式的结合。未来数据分析者、数据拥有者和服务提供方，这三者一定是分开的。设计一套机制将这三者统筹结合。基于云端的服务，每个人在本地将自己的数据按照约定的算法差分隐私化处理后上传至云端，那么云端获得的数据集全是隐私保护处理后的数据，但这些数据集依然可以供数据分析者进行挖掘分析，最后将结果给服务提供方。

【版权声明】
本文首发于戚名钰的博客，欢迎转载，但是必须保留本文的署名戚名钰（包含链接）。如您有任何商业合作或者授权方面的协商，请给我留言：qimingyu.security@foxmail.com
欢迎关注我的微信公众号：科技锐新