当前位置:首页>生活 >内容

看待数据隐私的新方法

2023-07-16 09:13:06生活自然的汉堡

想象一下,一组科学家开发了一种机器学习模型,可以根据肺部扫描图像预测患者是否患有癌症。他们希望与世界各地的医院分享这个模型,以便临

想象一下,一组科学家开发了一种机器学习模型,可以根据肺部扫描图像预测患者是否患有癌症。他们希望与世界各地的医院分享这个模型,以便临床医生可以开始使用它进行诊断。

看待数据隐私的新方法

但有一个问题。为了教他们的模型如何预测癌症,他们向模型展示了数百万张真实的肺部扫描图像,这个过程称为训练。这些敏感数据现在被编码到模型的内部工作中,可能会被恶意代理提取。科学家们可以通过在模型中添加噪声或更通用的随机性来防止这种情况发生,从而使对手更难猜测原始数据。然而,扰动会降低模型的准确性,因此添加的噪声越少越好。

麻省理工学院的研究人员开发了一种技术,使用户能够添加尽可能少的噪音,同时仍然确保敏感数据受到保护。

研究人员创建了一个新的隐私指标,他们称之为“大概正确(PAC)隐私”,并基于该指标构建了一个框架,可以自动确定需要添加的最小噪声量。此外,该框架不需要了解模型的内部工作原理或其训练过程,这使得它更容易用于不同类型的模型和应用程序。

在一些案例中,研究人员表明,使用 PAC Privacy 保护敏感数据免受攻击所需的噪音量远低于其他方法。这可以帮助工程师创建机器学习模型,该模型可以证明隐藏训练数据,同时保持现实环境中的准确性。

“PAC Privacy 以一种有意义的方式利用敏感数据的不确定性或熵,这使我们在许多情况下能够减少一个数量级的噪音。这个框架让我们能够了解任意数据处理的特点,并自动将其私有化,无需人为修改。虽然我们还处于早期阶段,正在做简单的示例,但我们对这项技术的前景感到兴奋。”Edwin Sibley Webster 电气工程教授、PAC 隐私新论文的合著者 Srini Devadas 说道。

德瓦达斯与主要作者、电气工程和计算机科学研究生肖汉申共同撰写了这篇论文。该研究将在国际密码学会议(Crypto 2023)上展示。

定义隐私

数据隐私的一个基本问题是:对手可以从添加了噪声的机器学习模型中恢复多少敏感数据?

差异隐私是一种流行的隐私定义,它表示,如果观察发布模型的对手无法推断任意个人的数据是否用于训练处理,则可以实现隐私。但要有效地阻止对手区分数据使用情况,通常需要大量噪声来掩盖它。这种噪声会降低模型的准确性。

PAC Privacy 对这个问题的看法有些不同。它描述了对手在添加噪声后重建随机采样或生成的敏感数据的任何部分的难度,而不是仅仅关注可区分性问题。

例如,如果敏感数据是人脸图像,差异隐私将关注对手是否可以判断某人的脸部是否在数据集中。另一方面,PAC Privacy 可以研究对手是否可以提取轮廓(近似值),以便有人可以将其识别为特定个人的脸部。

一旦确定了 PAC 隐私的定义,研究人员就创建了一种算法,可以自动告诉用户需要向模型中添加多少噪声,以防止对手自信地重建敏感数据的近似值。肖说,即使对手拥有无限的计算能力,这种算法也能保证隐私。

为了找到最佳的噪声量,PAC 隐私算法依赖于从对手的角度来看原始数据中的不确定性或熵。

这种自动技术从数据分布或大型数据池中随机抽取样本,并在子采样数据上运行用户的机器学习训练算法,以生成输出学习模型。它在不同的子采样上多次执行此操作,并比较所有输出的方差。这种方差决定了必须添加多少噪声——方差越小意味着需要的噪声越少。

声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

Top