首页 > 技术文章 > A Firm Foundation for Private Data Analysis

p2win 2021-12-04 19:09 原文

1.私有数据分析

在信息领域中,隐私的丧失通常与无法控制对信息的访问,无法控制信息的流量或无法控制使用信息的目的有关。即使解决了所有这些控制问题,确保隐私也是一个挑战的环境中出现了隐私保护数据的统计分析。
统计披露控制的问题 -- 在保护个人隐私的同时揭示一组受访者的准确统计数据 -- 有着悠久的历史,广泛的文献涵盖了统计、理论计算机科学、安全、数据库和密码学 (例如,参见优秀的调查 [1],[2] 和《社会统计杂志》9 (2) 中相关工作的讨论,致力于确认和披露控制)。这悠久的历史证明了这个问题的重要性。统计数据库可能具有巨大的社会价值; 它们用于分配资源,评估医学疗法,了解疾病的传播,提高经济效用以及告知我们自己作为一个物种。
数据可以通过不同的方式获得。一些数据,如人口普查、税收和其他类型的官方数据,是被迫的; 其他数据是机会收集的,例如,从互联网上的traffic、亚马逊上的交易和搜索引擎查询日志; 其他数据是无私地提供的,受访者希望分享他们的信息将帮助其他人避免特殊的不幸,或者更普遍地说,增加公共利益。利他的数据捐赠者通常被承诺他们的个人数据将被保留,简而言之,他们被承诺 “隐私”。同样,医疗数据和法律强制数据,如人口普查数据、纳税申报单数据,有法律隐私授权。
我们认为,道德要求机会性获得的数据不应受到不同的对待,尤其是当没有合理的替代方法来从事产生相关数据的行动时。
问题仍然存在: 即使数据加密,密钥管理,访问控制以及数据策展人的动机都是无可指责的,保护隐私意味着什么,如何实现?

1.1 “如何” 很难

让我们考虑一些常见的建议以及它们可以包含的一些大型查询集。
一个常见的建议是禁止对特定个体或一小部分个体的查询。一个著名的论点证明了这一建议的不足。假设已知X先生在某个医学数据库中。综合起来,两个大问题的答案是 “数据库中有多少人具有镰状细胞特征?” 和 “数据库中有多少人 (不叫X) 具有镰状细胞特征?” 产生了X先生的镰状细胞状态。该示例还表明,加密数据 (另一个常见的建议) 将毫无帮助。隐私损害源于数据库的正确操作。

在查询审核中,对数据库的每个查询都在查询历史的上下文中进行评估,以确定响应是否会公开; 如果是,则拒绝查询。例如,可以使用查询审核来阻止刚刚描述的有关镰状细胞特征的一对查询。这种方法是有问题的,有几个原因,其中包括查询监控在计算上是不可行的 [15],拒绝响应查询本身可能是公开的 [14]。

我们将数据库视为行的集合,每一行都包含不同受访者的数据。在二次采样中,随机选择并释放行的子集。然后可以在子样本上计算统计数据,如果子样本非常大,则这些可以代表整个数据集。如果子样本的大小与数据集的大小相比非常小,则这种方法具有每个受访者都不太可能出现在子样本中的属性。然而,这显然是不明智的: 假设出现在子样本中有可怕的后果。然后每次子采样发生时,都会有一些人可怕地进行采样。

在输入扰动中,在生成响应之前对数据或查询进行修改。这个广泛的类别包括子采样的概括,其中,策展人首先基于查询的秘密,随机,函数,从数据库中选择一个子样本,然后返回通过将查询应用到子样本而获得的结果 [4]。这种方法的一个很好的功能是,重复相同的查询会产生相同的答案,而语义上等效但在语法上不同的查询是在本质上不相关的子样本上进行的。然而,离群值可能只会受到不可能出现在.

在传统上称为随机响应的情况下,数据本身是一次随机的,并且从噪声响应中计算出统计数据,并考虑到扰动的分布 [22]。术语 “随机回答” 来自这样一种做法,即让受访者参加一项调查,并根据结果回答是/否问题或回答情绪上更中立的问题。在计算机科学文献中,由硬币控制的选择通常是在诚实地报告一个人的价值和随机响应之间,通常是通过flipping第二枚硬币和报告结果。随机响应是针对个人不信任策展人的环境而设计的,因此我们可以将随机响应视为简单的发布。隐私来自如何解释报告价值的不确定性。对于复杂的数据,这种方法变得站不住脚。

将随机噪声添加到输出中是有希望的,我们稍后将返回。在这里,我们指出,we point out that if done na¨ıvely this approach will fail.。要看到这一点,假设噪声的平均值为零,并且在生成每个响应时都使用了新鲜的随机性。在这种情况下,如果重复询问相同的查询,则可以对响应进行平均,并且最终会出现真正的答案。这是灾难性的: 敌对的分析师可以利用这一点来实施上述的不同攻击。该方法不能通过记录每个查询并在每次重新发出查询时提供相同的响应来 “固定”。这有几个原因。例如,语法上不同的查询可能在语义上是等效的,并且,如果查询语言非常丰富,则对等问题本身是无法确定的,因此策展人甚至无法对此进行测试。

3. DIFFERENTIAL PRIVACY

差分隐私将确保攻击对手对信息和通信技术的伤害(或好处)--任何种类的、任何一组人--的能力本质上应该是相同的,无论是任何个人选择加入还是退出数据集。我们将间接地做到这一点,同时解决所有可能的危害和好处,方法是关注隐私机制的任何给定输出的概率,以及该概率如何随着任何行的添加或删除而改变。
因此,我们将专注于只在一行中对数据库(D,D0)进,这意味着一个数据库是另一个数据库的子集,而较大的数据库只包含一个附加行。最后,为了处理最坏的数据库对,我们的概率将超过隐私机制做出的随机选择。

6.什么是差分隐私

差分隐私是隐私的严格数学定义。在最简单的设置中,考虑一种分析数据集并计算其统计数据(例如数据的均值、方差、中值、众数等)的算法。如果通过查看输出无法判断任何个人的数据是否包含在原始数据集中,则这种算法被称为差异私有。换句话说,差异私有算法的保证是,当单个个体加入或离开数据集时,其行为几乎不会改变——算法可能在包含某些个体信息的数据库上输出的任何内容几乎都来自数据库没有那个人的信息。最为显着地,数据集。因此,无论任何个人的详细信息多么古怪,也无论数据库中其他任何人的详细信息如何,差异隐私的保证仍然有效。这提供了一个正式的保证,即数据库中参与者的个人级别信息不会泄露。

为什么需要隐私数学定义

许多启发式方法用于保护研究数据库中个人的隐私。匿名化(去除“可识别的”属性,例如姓名、地址、SSN、IP 地址等)是最常用的技术。然而,这种没有任何正式保证的启发式方法可能会失败,并且一再被证明会失败。在一个引人注目的例子中,Latanya Sweeney 表明性别、出生日期和邮政编码足以唯一地识别绝大多数美国人。通过将据称是匿名的医疗保健数据库中的这些属性与公共选民记录联系起来,她能够识别马萨诸塞州州长的个人健康记录。这些“链接攻击”激发了对隐私的稳健定义的需求——一种不受使用辅助知识攻击的隐私。

另一项工作表明,回答太多关于数据库的无害(甚至完全随机)查询本质上侵犯了其个人贡献者的隐私。这些作品揭示了统计效用和隐私之间的基本权衡。为了理解这种权衡并找到社会期望的结果,我们首先必须能够正式定义隐私。

隐私作为一张可量化的标准

差分隐私的一个关键特征是,它不是将隐私定义为“个人数据是否暴露”的二元概念,而是一个累积风险的问题。也就是说,每次处理一个人的数据时,她被暴露的风险就会增加。为此,差异隐私的定义配备了量化“隐私损失”的参数(“epsilon 和 delta”)——个人因使用其数据而面临的额外风险。无论在重识别攻击中使用任何辅助知识,差分隐私算法对个人隐私造成的风险将永远受到这种隐私损失的限制。

差分隐私何时有用

通过广泛的理论研究,差分隐私有望在各种环境中共享研究数据。* 最简单且研究最充分的场景是统计查询发布:数据所有者可以指定计数查询,例如“有多少数据库里的人是男性?” 或者“数据库中有多少人住在马萨诸塞州?” 并接收受到少量随机噪声干扰的答案。差分私有算法能够近似地回答大量这样的查询,因此,看到这些近似答案的研究人员可以得出大致相同的结论,就好像她自己拥有数据一样。

然而,差异隐私的范围远远超出了统计查询的简单情况。例如,在机器学习、博弈论和经济机制设计、统计估计和流媒体方面存在不同的私有算法版本。
值得一提的是,差异隐私在较大的数据库上效果更好。这是因为随着数据库中个体数量的增加,任何单个个体对给定聚合统计量的影响都会减弱。
*当然,一个主要的挑战——也是 PrivacyTools 项目的一个重点——是将这些理论结果付诸实践。

差分隐私如何融入隐私工具

我们的目标是将差分隐私的定义和算法工具集成到多个 IQSS 项目中,以共享和探索研究数据,尤其是广泛使用的 Dataverse 平台。我们将差分隐私纳入的相关项目包括 DataTags、TwoRavens 和 Zelig。

该Dataverse项目是用于托管数据存储库在世界各地,使研究人员能够共享,保存,引用,探索和分析研究数据的软件基础设施。我们的目标是增强 Dataverse 以实现对当前无法安全共享的敏感数据集的差异化私有访问。使这特别具有挑战性的(与差分隐私的许多其他实际应用相比)是,这些工具需要是通用的,适用于上传到 Dataverse 存储库的各种数据集,并且是自动化的,没有差异隐私专家为每个数据集或分析师优化算法。因此,我们设想我们提供的差异化私有访问将允许研究人员进行粗略的初步分析,以帮助确定是否值得申请访问原始数据。

DataTags是一个 PrivacyTools 项目,它为数据集持有者如何根据相关隐私法律和法规共享其数据生成指南。为了使用该工具,数据集持有者参与了一个自动访谈过程,该过程会产生一个“数据标签”,告诉用户如何共享数据、如何存储数据等。我们正在努力将差异隐私纳入这些标签中,尤其是在当前标签不允许公开发布的情况下实现数据共享。例如,我们正在评估差分隐私参数(epsilon 和 delta)的各种设置所保证的保护,以便我们可以针对每个级别的标签提出适合哪些参数的建议。

Zelig是一个基于 R 的用户友好包,用于执行统计方法以及解释和呈现结果。TwoRavens与 Zelig 和 Dataverse 集成,是一种基于浏览器的工具,用于探索和分析数据。我们正在努力创建这些项目核心功能的差异化私有版本。

7.结论
差分隐私前沿研究边界正在迅速扩大,这里不能列出社区目前正在调查的所有有趣的方向。我们确定了其中的几个。
1、Geometry of Differential Privacy.。通过理解查询序列的几何[13],可以获得实现针对线性查询序列的差分隐私所需的噪声的更清晰的上界和下界[13]。在某些情况下,管理员可以利用查询之间的依赖关系来显着提高响应的准确性。将这一调查推广到非线性和交互的案例中将是非常有意义的。不会感兴趣的。
2、算法复杂性。到目前为止,我们忽略了计算复杂性的问题。这里描述的许多(但不是全部)技术都实现。例如,存在在标准密码假设下没有多项式时间实现的合成数据生成问题的实例[10]。因此,在某些情况下,指数机制没有有效实现。这个强大的工具什么时候可以科学地实现?如何实现?
3、Diff隐私保护的替代方案?有没有一种替代方案,“ad Omnia”,保证自动写作,并允许比差分隐私更高的准确性?密码学在这方面能有所帮助吗[19]?

这里描述的工作首次将私有数据分析建立在强大的数学基础上。这些文献将差异隐私与决策论、经济学、稳健统计学、几何学、加法组合学、密码学、复杂性理论学习理论和机器学习联系起来。隐私之所以蓬勃发展,是因为它是自然的,它不是特定于领域的,而且它与其他领域有着卓有成效的相互作用。这种的灵活性为在传统的加密安全概念不合适或不切实际的情况下(如私人数据分析)提供了一种原则性的隐私方法带来了希望。

推荐阅读