密码系统可以启用众包的基因组学业务领域

2018-05-14

在多台服务器之间巧妙地划分信息可以让麻省理工学院系统以比标准密码技术计算效率更高的方式保护基因组数据库贡献者的隐私。图片:Christine Daniloff / MIT

全基因组关联研究寻找特定遗传变异与疾病发生之间的联系,是现代生物医学研究的基础。

但是基因组信息数据库构成隐私风险。从人们的原始基因组数据中,可以推断出他们的姓氏,甚至可以推断他们的脸部形状。许多人都不愿意将自己的基因组数据贡献给生物医学研究项目,而拥有大量基因组数据库的组织可能会进行长达数月的审查,然后再决定是否授予研究人员的访问请求。

在今天发表在Nature Biotechnology上的一篇论文中,来自麻省理工学院和斯坦福大学的研究人员提出了一个新的系统,用于保护为大型生物医学研究提供基因组数据的人的隐私。早期的密码方法如此计算密集,以至于它们对于数千个基因组而言变得非常耗时,新系统承诺为在多达一百万个基因组上进行的研究提供有效的隐私保护。

“作为生物医学研究人员,我们对缺乏数据和访问控制库感到沮丧,”麻省理工学院数学Simons教授和相关作者Bonnie Berger说道。 “我们预计未来将呈现大规模分布式基因组数据的格局,其中私人个人拥有自己的个人基因组,而研究机构以及医院也建立自己的私人基因组数据库。我们的工作提供了一个路线图,汇集了大量的基因组数据以实现科学进步。“

论文的第一作者是MIT的电子工程和计算机科学研究生Hyunghoon Cho,他和伯杰加入了斯坦福大学计算机科学研究生David Wu。

系统的核心是一种称为秘密共享的技术,它将敏感数据划分到多个服务器中。例如,要存储数字x,秘密共享系统可能会将随机数r发送给一个服务器,将x-r发送给另一个服务器。

两个服务器都不能独立推断x。但是,它们总体上仍然可以执行有用的操作。如果一台服务器存储了一堆r并将它们加在一起,另一台服务器将所有相应的(x-r)加起来,然后共享结果并将它们加在一起将产生所有x的总和。然而,这两个服务器都不会观察任何一个x的价值。

如果两台服务器都遭到黑客攻击,攻击者当然可以重建所有的x。但只要一台服务器值得信赖,系统就是安全的。此外,该原则推广到多个服务器。如果数据在四台服务器之间分配,攻击者将不得不渗透所有四台服务器;黑客攻击任何三个都不足以提取任何数据。

然而,在这种情况下,乘法比加法更复杂。除了r之外,在密码学家Donald Beaver之后,乘以两个x需要再生成三个随机数 - 称为海狸三元组。这三个数字又必须在使用秘密共享的服务器之间进行分配。在乘法之前将这些数字的秘密共享分量添加到x和r中会产生一个代数表达式,其中所有添加的随机性都可以被滤除,只剩下两个x的乘积。

全基因组关联研究涉及一个巨大的表格或矩阵,它将数据库中的基因组与单核苷酸多态性的SNP基因变异位置进行对比。单核苷酸多态性通常会有大约一百万个,所以如果数据库中含有一百万个基因组,那么结果将会是百万分之一的矩阵。

寻找有用的疾病相关性需要滤除误导性的相关性,这个过程称为人口分层纠正。例如,东亚人经常乳糖不耐症,但他们往往比北欧人短。对乳糖不耐症的遗传相关性的初步调查可能最终会确定那些身高。

种群分层校正通常依赖于称为主成分分析的算法,该算法需要涉及整个SNP对基因组矩阵的重复繁殖。如果矩阵中的每一个条目都需要自己的一组Beaver三元组,那么分析一百万个基因组将花费过多的时间。

但Cho,Berger和Wu找到了一种方法来构造这种乘法序列,以便许多Beaver三元组只能计算一次并重用,从而大大降低了计算的复杂度。

他们还使用其他一些技术来加速他们的系统。因为海狸三元组必须秘密共享,所以海狸三元组中的每个数字都有一个关联的随机数:在双服务器场景中,一台服务器将获得随机数,另一台获得海狸数减去随机数。

在Cho,Berger和Wu的系统中,有一台服务器专门用于生成Beaver三元组并秘密共享它们。但是,虽然它需要将海狸号码减去关联的随机号码传送到适当的服务器,但它本身不需要传送随机号码。相反,它只是共享它用于“种子”称为伪随机数生成器的算法的数字。接收方服务器可以自行生成随机数,从而节省大量的通信带宽。

最后,当执行所有乘法时,系统实际上并不使用整个百万分之一的矩阵。相反,它使用称为随机投影的近似技术在保持最终计算结果的准确性的同时剔除矩阵。

基于这些技术,Cho,Berger和Wu的系统准确地复制了三个已发表的涉及23,000个个体基因组的全基因组关联研究。这些分析的结果表明该系统应该有效地扩展到一百万个基因组。

出版物:Hyunghoon Cho,David J Wu和Bonnie Berger,“使用多方计算的安全全基因组关联分析”,Nature Biotechnology,2018; DOI:10.1038 / nbt.4108