Cell Syst:基因数据噪音或可保护患者隐私

2016-09-01 徐徐 科学网

大型基因组数据库对于科学家寻找同疾病相关的遗传变异来说是必不可少的。不过,对于贡献了DNA的人来说,这会带来隐私风险。一项2013年的研究显示,黑客能利用网络上公开可用的信息,从被匿名的基因组数据中辨别出人们的身份。 为解决这些担忧,一个由美国麻省理工学院计算机科学家Bonnie Berger和Sean Simmons研发的系统利用了被称为差分隐私的方法。它通过向用户查询结果中添加少量噪音或

大型基因组数据库对于科学家寻找同疾病相关的遗传变异来说是必不可少的。不过,对于贡献了DNA的人来说,这会带来隐私风险。一项2013年的研究显示,黑客能利用网络上公开可用的信息,从被匿名的基因组数据中辨别出人们的身份。

为解决这些担忧,一个由美国麻省理工学院计算机科学家Bonnie Berger和Sean Simmons研发的系统利用了被称为差分隐私的方法。它通过向用户查询结果中添加少量噪音或者随机变异,模糊捐赠者的身份。研究人员在最新一期的《细胞系统》杂志上发表了他们的成果。

该系统会计算研究人员想要的统计数值,比如一个遗传变异同某种特定疾病存在关联的几率,或者同一种疾病最相关的5个遗传变异。然后,它向结果中添加随机变异,并且返回本质上带有轻微错误的信息。比如,在对同某种疾病相关的前5个遗传变异的查询中,系统可能会产生前4个遗传变异以及第6个或第7个变异。

用户并不知道哪个查询结果更正确,但仍能利用这些信息。只是对于想弄清楚数据背后的患者信息的人来说,变得更加困难了而已。

“当你在系统中加入一点点噪音,从很多方面来说,它同数据开始自带的噪音并没有太大的不同。”田纳西州范德堡大学计算机专家Bradley Malin表示,“在一定程度上,它仍然是可靠的。”几十年来,美国人口普查局和劳工部一直通过这种方式向它们的数据中添加噪音。

只要数据库足够大——含有来自几千或更多人的信息,同时研究人员保持在限制其能询问问题数量的“隐私预算”之内,利用此项技术的数据集中的个人隐私便不会受到侵害。用户将无法询问一个基因组中的几百个或上千个位置。

受该技术保护的数据库可被立即搜索到,而目前要获准调用由包括美国国立卫生研究院在内的各机构管理的数据库可能需要数月。

Simmons和Berger表示,即便带有噪音,在询问一些有针对性的问题时,该系统提供的答案仍然足够有用。“它主要被用于获取通过其他途径可能无法接触到的数据集。”Simmons介绍说。

比如,如果分析一个小型数据集的研究人员发现了同某种疾病存在关联的遗传变异,该系统能让他们利用规模大很多且通过其他方式无法获取到的数据集证实这一关联。它还能让研究人员预览某个数据集,从而在进行耗费时间的完整获取申请流程前判定其有用程度。

“我认为,这是一项极其卓越的数学工作。”哥伦比亚大学计算生物学家Yaniv Erlich表示,“理论上讲,它很不错。不过,从实际的角度来说,我并不确定它会派上用场。”

Erlich的一个担忧来自该系统的问题限制。在他看来,现在研究人员想要的是分析同某种疾病存在关联的前10个或100个遗传变异,而不是前5个。

与此同时,Erlich 表示,“人们并不喜欢在其数据中加入噪音”,因为产生这些信息需要经过很多艰苦的工作。噪音问题还会对基于此类信息的临床决策产生令人不安的影响。

Malin认为,该系统会在查询结果中添加大量噪音的可能性非常小。“这让人们感到有点不自在。”

不过,Simmons正试图改进这一系统,在实现相同的隐私保护效果的同时尽量添加较少的噪音。Berger则同哈佛大学—麻省理工学院博德研究所合作,确定减少隐私风险的方法。这或许可通过利用差分隐私技术实现。如果该研究所决定在更大范围内释放来自其数据库的基因组数据,这将会派上用场。

“最终,这就是我们真正关心的事情。”Simmons表示,“让这些数据尽可能被更加广泛地获取到。”

原始出处:

Simmons S, Sahinalp C, Berger B.Enabling Privacy-Preserving GWASs in Heterogeneous Human Populations.Cell Syst. 2016 Jul;3(1):54-61. doi: 10.1016/j.cels.2016.04.013. Epub 2016 Jul 21.

作者:徐徐



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (10)
#插入话题

相关资讯

PLoS Genet:循环肿瘤DNA片段更短小 有助开发液体活检新技术

根据一项发表在国际学术期刊Plos Genetics上的最新研究,循环肿瘤DNA与正常游离DNA在长度上存在差别,据此或可利用病人血液帮助开发检测肿瘤DNA的液体活检新技术。 液体活检技术可以从血液中发现和诊断癌症,还可以帮助监测癌症复发,评估治疗效果,但是这项技术仍然存在监测灵敏度的问题,大大限制了该技术的发展。美国犹他大学和华盛顿大学的研究人员发现,相比于正常细胞的DNA片段,来源于肿瘤细

Immunity:DNA损伤修复酶调节炎症小体激活机制

Ataxia-telangiectasia mutated (ATM)激酶是一类关键的DNA双链损伤修复机制的组成元件。在人体中,ATM的缺失会导致毛细血管扩张(ataxia telangiectasia,AT),这一疾病容易恶化导致出现神经退化、癌症病发、早衰、放射敏感以及代谢与免疫紊乱等症状。AT患者临床上会出现炎症反应。最近研究表明ATM的缺失引起的DNA的损伤能够导致DNA向胞浆中泄露

Nature子刊:为何是DNA而不是RNA作为遗传信息的载体?

一项新的研究可能解释了为何DNA而不是它古老的表亲---RNA---是遗传信息的主要储藏室。DNA双螺旋是容错性较大的分子,能够自我扭曲成不同的形状来消减遗传密码的基础构造元件---碱基A、G、C和T----所遭受的化学损伤。与此相反的是,当RNA以双螺旋形式存在时,它是非常刚硬和不易弯曲的,不能够容纳受损的碱基,因而它完全断裂了。相关研究结果于2016年8月1日在线发表在Nature Str

宝宝的宝宝是不是宝宝的?来学学亲子鉴定怎么做

小编前天刚刚睡醒看手机,噼里啪啦的都是宝宝(王宝强)凌晨发文,公开声明和他老婆离婚的消息。原因竟然还是狗血的女方出轨经纪人。 不过这都是人家的事情,小编看过也就是一阵唏嘘,然而……短短半天的时间,竟然还有好事者爆出来了宝宝去做亲子鉴定了。当然很快就被各种例证否定了,真是啪啪打脸啊。但是小编不得不说,亲子鉴定这个还是很专业的,小编要是告诉你是滴血认亲的,想必各位看官也不会相信是不是。&

PNAS:改写教科书!DNA也会天然地发出荧光!

在一项新的研究中,来自美国西北大学的研究人员捕获到DNA做一种之前从未观察到的事情:它发出荧光。相关研究结果发表在2016年8月15日那期PNAS期刊上,论文标题为“Superresolution intrinsic fluorescence imaging of chromatin utilizing native, unmodified nucleic acids for contrast”

Sci Rep:机体的DNA决定你爱不爱喝咖啡?

日前,一项刊登于国际杂志Scientific Reports上的研究报告中,研究者鉴别出了一种能够抑制咖啡消耗的特殊基因,文章中,研究者发现,携带PDSS2基因突变(DNA突变)的个体往往更易于摄入较少的咖啡,这项研究发现,PDSS2基因能够降低细胞破碎咖啡因的能力,从而使得咖啡因在机体中长时间停留,这就意味着一个人或许并不需要过多地摄入咖啡也能得到较高水平的咖啡因。 这项研究还补充了此前的研究