正在阅读:

他们绘制了一张包含一千三百万人的族谱

扫一扫下载界面新闻APP

他们绘制了一张包含一千三百万人的族谱

美国演员凯文·贝肯就在其中。

图片来源:网络

在过去的20年中,探宗寻源的家谱类网站吸引了超过1500万受众。你或许能发现家族中某人的不忠,也或许能和失散多年的表亲重逢,Larry和Bernie就在《Finding Your Roots》上重逢了(注:《Finding Your Roots》是PBS的一档节目,帮助各界名人探寻祖先,美国参议员Bernie Sanders就在节目上找到了自己的哥哥Larry Sanders,Larry中年时期移民去了英国,后在英国从政,现任绿党发言人)。这是一件非常个人而又令人动容的事情。但如果你的族谱包含了成千上万、甚至几千万人,它就不再是你个人的历史了,它是整个人类的历史。

商业家谱和社交网站Geni.com于2007年上线,它的目标是创建一张“世界性的族谱”。如今,网站用户已经上传了超过1.15亿份个人资料,并通过婚姻和直系血缘关系联系在一起。最近,纽约基因组研究中心(New York Genome Center)、哥伦比亚大学、麻省理工学院和哈佛大学的科学家们将这些众包的公开记录整合成了大的族谱,每一份族谱的体量可能相当于一个小国家。3月1日,他们的分析在《科学》杂志上发表,其中还包括一份1300万人的族谱(剧透一下,美国演员凯文·贝肯就在其中),这也是目前已知最大的族谱。

研究团队主要由遗传学家和生物信息学家组成,他们在基因的基础上发现了研究长寿的新视角。长寿一直是热门话题,尤其是在硅谷,许多资金雄厚的初创公司都致力于寻找DNA老化的秘密,但这个课题始终难以攻坚。“我总不能在纽约地铁里贴张海报说,‘嘿,把你的老表都带来,我们要研究长寿!’现在登录Geni.com就能批量下载这些数据,这就方便多了。”该研究的作者亚尼夫·埃尔利希(Yaniv Erlich)说。

一年前,埃尔利希还在哥伦比亚大学研究DNA数据存储、基因组编辑和群体遗传。也是在哥大,他第一次接触到了Geni的数据集。去年2月,他和其他研究者将报告的初稿发布在了biorXiv(生命科学预印本网站)上。发布前的一个星期,他暂时离开了哥大,去到Geni的母公司MyHeritage担任首席科学官,该公司于2016年开始提供个人DNA试件。

研究人员利用图论构建了这张包含6000人的家谱图。绿色的部分代表跨越7代的个体,连接着他们的红线代表婚姻。图片来源:哥伦比亚大学

通过观察300多万对亲属的寿命差异,埃尔利希和他的学术伙伴——包括哥大时期的同事和纽约基因组研究中心的研究人员——发现,如今基因对寿命的影响只占16%。之前的研究就已经预计到遗传的作用在10%到30%之间,剩下的部分取决于生活方式、环境,甚至是运气。即便你拥有了长寿基因,你也还是有可能出门就遇上车祸,或者灾害来临时你却恰好在森林里。埃尔利希说:“我们在基因组中能发现的信息可能会更少,从基因层面来说,你的生死几乎是无法控制的。”

他说,这篇论文的主要目的是为了证明,众包收集的数据与传统的人口统计数据能够提供一样的分析视角,后者反而会花费更多的劳动力和资金成本;美国最近的一次人口普查花了130亿美元。但这也不是所有人都认同的,“令人担心的是,这种数据集的特殊之处我们尚且无法理解,”加州大学伯克利分校的人口统计学家乔什·戈尔茨坦(Josh Goldstein)说。只有你恰好生活在一个记录完整的地区,或者你的亲戚当中有个名人(见凯文·贝肯的例子),又或者只是单纯地走运,你才有可能通过这些数据找到亲人。

作者在研究过程中在尽力地解决这些问题,他找出了大约8万名1985年至2000年间去世的佛蒙特人的死亡证明,并在Geni上收集了1000份1985年至2000年间去世的佛蒙特人的个人资料。他将二者进行对比,发现这两组数据在社会经济因素方面的匹配度极高,达到了98%的一致性。这个案例似乎可以证明,业余的众包数据某种程度上可以替代传统的人口统计数据。

研究人员在Geni.com下载了8600万份公开资料后,用数学图表将这些数据整理成家谱。这张图表中有7万人,他们通过婚姻或共同的祖先联系在一起。图片来源:哥伦比亚大学

这个网站是完全公开的,任何人都可以下载研究人员制作的家谱和人口统计数据,数据中的个人信息已被去除。用户下载了这些资料后,理论上他们可以将这些庞大的谱系与其他数据库相结合,例如MyHeritage、 Ancestry和23andMe(注:前二者为家谱网站,23andMe为基因鉴定网站)的DNA序列,继而可以跨越代际去追踪疾病和相关基因。戈尔茨坦说:“在未来的几年里,这些数据和其他公共数据库的结合可能会产生巨大的累积效应。”

Geni目前已经建立了自己的数据接口,研究人员可以在数据库中联系任何人(通过一个加密的、去识别的令牌验证系统)以获取用户同意访问他们的数据。埃尔利希说:“过去做实验招募被试都得付钱,而且每个实验只能产生一个数据集,用于一项特定的研究。但是现在我们可以利用系谱学家的这项新工程来收集家庭数据,进行基础研究。”

我们的祖先拿起石器开始狩猎是否终结了人类的苦难地位?现在得出结论还为时过早。但现在却是绝好的时机,让你的家谱为科学做出贡献。

(翻译:都述文)

· · · · · · · · · ·

想要获取更多有意思的内容,请移步界面网站首页(http://www.jiemian.com/),并在微博上和我们互动,调戏萌萌哒歪楼菌→【歪楼-Viral】(请猛戳这里)。

你也可以关注乐趣频道的微信公众号【歪楼】:esay1414

来源:Wired

原标题:RESEARCHERS USED THIS GENEALOGY SITE TO BUILD A 13 MILLION-PERSON FAMILY TREE

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

他们绘制了一张包含一千三百万人的族谱

美国演员凯文·贝肯就在其中。

图片来源:网络

在过去的20年中,探宗寻源的家谱类网站吸引了超过1500万受众。你或许能发现家族中某人的不忠,也或许能和失散多年的表亲重逢,Larry和Bernie就在《Finding Your Roots》上重逢了(注:《Finding Your Roots》是PBS的一档节目,帮助各界名人探寻祖先,美国参议员Bernie Sanders就在节目上找到了自己的哥哥Larry Sanders,Larry中年时期移民去了英国,后在英国从政,现任绿党发言人)。这是一件非常个人而又令人动容的事情。但如果你的族谱包含了成千上万、甚至几千万人,它就不再是你个人的历史了,它是整个人类的历史。

商业家谱和社交网站Geni.com于2007年上线,它的目标是创建一张“世界性的族谱”。如今,网站用户已经上传了超过1.15亿份个人资料,并通过婚姻和直系血缘关系联系在一起。最近,纽约基因组研究中心(New York Genome Center)、哥伦比亚大学、麻省理工学院和哈佛大学的科学家们将这些众包的公开记录整合成了大的族谱,每一份族谱的体量可能相当于一个小国家。3月1日,他们的分析在《科学》杂志上发表,其中还包括一份1300万人的族谱(剧透一下,美国演员凯文·贝肯就在其中),这也是目前已知最大的族谱。

研究团队主要由遗传学家和生物信息学家组成,他们在基因的基础上发现了研究长寿的新视角。长寿一直是热门话题,尤其是在硅谷,许多资金雄厚的初创公司都致力于寻找DNA老化的秘密,但这个课题始终难以攻坚。“我总不能在纽约地铁里贴张海报说,‘嘿,把你的老表都带来,我们要研究长寿!’现在登录Geni.com就能批量下载这些数据,这就方便多了。”该研究的作者亚尼夫·埃尔利希(Yaniv Erlich)说。

一年前,埃尔利希还在哥伦比亚大学研究DNA数据存储、基因组编辑和群体遗传。也是在哥大,他第一次接触到了Geni的数据集。去年2月,他和其他研究者将报告的初稿发布在了biorXiv(生命科学预印本网站)上。发布前的一个星期,他暂时离开了哥大,去到Geni的母公司MyHeritage担任首席科学官,该公司于2016年开始提供个人DNA试件。

研究人员利用图论构建了这张包含6000人的家谱图。绿色的部分代表跨越7代的个体,连接着他们的红线代表婚姻。图片来源:哥伦比亚大学

通过观察300多万对亲属的寿命差异,埃尔利希和他的学术伙伴——包括哥大时期的同事和纽约基因组研究中心的研究人员——发现,如今基因对寿命的影响只占16%。之前的研究就已经预计到遗传的作用在10%到30%之间,剩下的部分取决于生活方式、环境,甚至是运气。即便你拥有了长寿基因,你也还是有可能出门就遇上车祸,或者灾害来临时你却恰好在森林里。埃尔利希说:“我们在基因组中能发现的信息可能会更少,从基因层面来说,你的生死几乎是无法控制的。”

他说,这篇论文的主要目的是为了证明,众包收集的数据与传统的人口统计数据能够提供一样的分析视角,后者反而会花费更多的劳动力和资金成本;美国最近的一次人口普查花了130亿美元。但这也不是所有人都认同的,“令人担心的是,这种数据集的特殊之处我们尚且无法理解,”加州大学伯克利分校的人口统计学家乔什·戈尔茨坦(Josh Goldstein)说。只有你恰好生活在一个记录完整的地区,或者你的亲戚当中有个名人(见凯文·贝肯的例子),又或者只是单纯地走运,你才有可能通过这些数据找到亲人。

作者在研究过程中在尽力地解决这些问题,他找出了大约8万名1985年至2000年间去世的佛蒙特人的死亡证明,并在Geni上收集了1000份1985年至2000年间去世的佛蒙特人的个人资料。他将二者进行对比,发现这两组数据在社会经济因素方面的匹配度极高,达到了98%的一致性。这个案例似乎可以证明,业余的众包数据某种程度上可以替代传统的人口统计数据。

研究人员在Geni.com下载了8600万份公开资料后,用数学图表将这些数据整理成家谱。这张图表中有7万人,他们通过婚姻或共同的祖先联系在一起。图片来源:哥伦比亚大学

这个网站是完全公开的,任何人都可以下载研究人员制作的家谱和人口统计数据,数据中的个人信息已被去除。用户下载了这些资料后,理论上他们可以将这些庞大的谱系与其他数据库相结合,例如MyHeritage、 Ancestry和23andMe(注:前二者为家谱网站,23andMe为基因鉴定网站)的DNA序列,继而可以跨越代际去追踪疾病和相关基因。戈尔茨坦说:“在未来的几年里,这些数据和其他公共数据库的结合可能会产生巨大的累积效应。”

Geni目前已经建立了自己的数据接口,研究人员可以在数据库中联系任何人(通过一个加密的、去识别的令牌验证系统)以获取用户同意访问他们的数据。埃尔利希说:“过去做实验招募被试都得付钱,而且每个实验只能产生一个数据集,用于一项特定的研究。但是现在我们可以利用系谱学家的这项新工程来收集家庭数据,进行基础研究。”

我们的祖先拿起石器开始狩猎是否终结了人类的苦难地位?现在得出结论还为时过早。但现在却是绝好的时机,让你的家谱为科学做出贡献。

(翻译:都述文)

· · · · · · · · · ·

想要获取更多有意思的内容,请移步界面网站首页(http://www.jiemian.com/),并在微博上和我们互动,调戏萌萌哒歪楼菌→【歪楼-Viral】(请猛戳这里)。

你也可以关注乐趣频道的微信公众号【歪楼】:esay1414

来源:Wired

原标题:RESEARCHERS USED THIS GENEALOGY SITE TO BUILD A 13 MILLION-PERSON FAMILY TREE

本文为转载内容,授权事宜请联系原著作权人。