首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Y染色体分子标记高效推断姓氏的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院北京基因组研究所

摘要:本发明提供一种基于Y染色体分子标记高效推断姓氏的方法,特别是基于Y‑STR分子标记高效推断姓氏的方法。根据多个DNA的标记信息,通过计算个体间遗传距离的方法来预测样本的姓氏。本发明提供的方法可根据Y染色体分子标记如Y‑STR、Y‑SNP、RFLP等遗传变异信息对中国人群的姓氏进行有效推断,且姓氏推断的准确性随着每个姓氏样本量的增加而提高,随使用的分子标记数目增多而上升。采用本方法可以对中国人群的姓氏进行准确可靠的推断,并具有广阔的实际应用前景。

主权项:Y染色体分子标记在推断姓氏中的应用。

全文数据:基于Y染色体分子标记高效推断姓氏的方法技术领域[0001]本发明涉及分子生物学、法医学和生物信息技术领域,具体地说,涉及一种基于Y染色体分子标记高效推断姓氏的方法。背景技术[0002]基因DNA分子标记的遗传分析技术给法医侦查带来了革命性的变化。近30年来,DNA分析已经成为法医调查的必备手段,各级公安机关都建立了大量相关人群的遗传数据库。其中,Y染色体DNA数据库,特别是微卫星Y-STR数据库是建立最早、规模最大、人口覆盖最广的遗传数据库。近年来,随着芯片技术和新一代测序技术的发展,Y染色体SNP数据也在不断积累。虽然,这些数据库及其相应数据的分子标记在亲子鉴定和身份识别方面发挥了重要作用,但是,目前对Y染色体DNA众多分子标记分析结果的信息利用仍非常局限,没有充分发挥Y染色体DNA大数据库的应用潜能。[0003]Y染色体绝大部分DNA,即非重组区(Non-combiningregionofY,NRY,遵从严格的父系遗传,即只通过父亲遗传给男性后代。这种遗传模式与我国传统的姓氏继承模式非常相似,即绝大多数新生男丁出生后都随父亲的姓氏。由于Y染色体DNA的进化很大程度上与姓氏的传演相互平行,二者在演化上具有高度相关性,从理论角度,根据男性的Y染色体DNA上的变异模式可以对其姓氏进行推测。同时,中国自古以来就有寻根问祖的传统,对宗脉有着强烈的认同感。从北宋《百家姓》到现在由国务院人口普查办公室统计列出的中国名义上最新姓氏人口数目排名来看,姓氏的组成基本没有变化,其稳定性可有效提升姓氏推测的可靠性和准确性。这类推断结果可以直接应用于法医学分析,指导刑侦调查,尽可能的缩小调查范围,提高侦查效率。然而,目前尚没有根据Y染色体DNA的信息对中国姓氏进行推断的现成方法。因此,发展基于Y染色体DNA分子标记推断姓氏的分析方法非常必要。[0004]此外,基于Y染色体DNA分子标记推断姓氏的分析方法还具有广泛的社会人文应用前景。发明内容[0005]本发明的目的是提供一种基于Y染色体DNA分子标记高效推断姓氏的方法。[0006]为了实现本发明目的,本发明提供Y染色体分子标记在推断姓氏中的应用。[0007]本发明还提供基于Y染色体分子标记高效推断姓氏的方法,基于Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间的最小遗传距离,从而得到待测样本的候选姓氏。[0008]其中,所述分子标记包括STR、SNP或RFLP等常用的,且位于Y染色体非重组区域的分子遗传标记。[0009]本发明进一步提供基于Y染色体DNA分子标记高效推断姓氏的方法,以Y-STR标记为例包括以下步骤:[0010]步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化试剂盒对样本Y染色体DNA位点进行基因型分析;[0011]步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基因或短片段重复数量等,计算待测样本Y与数据库样本X之间的最小遗传距离dY,X,定义待测样本与各已知姓氏样本之间的最小遗传距离ds=minxesdY,X,其中Sm={X:X姓氏为m};[0012]遗传距离么可根据所使用的Y染色体DNA的数据信息类型进行相应定义;具体地,针对Y-STR数据,可采用以下两种方法计算ds:[0013]1余弦距离(cosinedistance,dcos[0015]其中,Xi和yj分别表示样本X和Y的STR位点i和j上的短片段重复数量;[0016]⑵溯祖距离(coalescencedistance[0018]其中,t为样本X和Y的溯祖时间,Ne为有效群体大小,μ=2.5X10_3为STR位点的平均突变速率,η为分析中应用到的STR位点的总数,丨表示两样本相同STR的位点数目,BF[0019]给定μ、η、k和Ne3两样本溯祖时间为t的概率可表示为:[0022]步骤3:根据ds对姓氏按升序排列;[0023]步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,1彡C彡数据库中姓氏总数目。[0024]前述的方法,步骤1中使用的试剂盒可以是AmpFlSTRYfiler™PCR扩增试剂盒或AGCUY18STR荧光检测试剂盒,以及其它可用于Y染色体STR分析的试剂盒。[0025]前述的方法,步骤1所述的Y-STR位点包括但不限于DYS19DYS394、DYS388、DYS389、DYS390、DYS391、DYS392、DYS393、DYS393DYS395、DYS413、DYS425DYF371、DYS426、DYS434、DYS435、DYS436、DYS437、DYS438、DYS439Y-GATA-A4、DYS441、DYS442、DYS443、DYS444、DYS445、DYS446、DYS447、DYS448、DYS449、DYS450、DYS452、DYS453、DYS454、DYS455、DYS456、DYS458、DYS459ab、DYS460Y-GATA-A7.1、DYS461Y-GATA-A7.2、DYS462、DYS463、DYS464、DYS481、DYS485、DYS487、DYS490、DYS494、DYS495、DYS497、DYS504、DYS505、DYS508、DYS518、DYS520、DYS522、DYS525、DYS531、DYS532、DYS533、DYS534、DYS540、DYS549、DYS556、DYS557、DYS565、DYS570、DYS572、DYS573、DYS575、DYS576、DYS578、DYS589、DYS590、DYS594、DYS607、DYS612、DYS614、DYS626、DYS627、DYS632、DYS635Y-GATA-C4、DYS636、DYS638、DYS641、DYS643、DYS710、DYS714、DYS716、DYS717、DYS724CDY、DYS725、DYS726、DYF385S1、DYF387Slab、DYF397、DYF399、DYF401、DYF406SI、DYF408、DYF411、DXYS156、YCAIIab、Y-GATA-H4、Y-GATA-AIO、Y-GGAAT-1B07。[0026]优选地,步骤1所述的¥-5了1?位点为0¥519、0¥53891、0¥538911、0¥5390、0¥5391、DYS392、DYS393、DYS437、DYS438、DYS439、0¥5448、0¥5456、0¥5458、0¥5635和丫6八了八!14。[0027]前述的方法,步骤4中C为1-n之间的整数,其中n为预定的目标姓氏数目。[0028]前述的方法,当步骤2中数据库样本量多50000时,采用余弦距离或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样本量80%。但姓氏样本量较小时如〈10推断的误差较大;排除这些样本,姓氏推断的准确率整体提高1%。[0079]虽然cUai对姓氏推断的准确性略高于cUs,但其运算强度远比cUs高。当C=10时,dcoai耗时100秒,而cUs只用2秒;S卩!⑽比(1隨1快50倍。[0080]4.3姓氏样本量对推断准确性的影响[0081]每个姓氏所包含的个体数目对姓氏推断具有明显影响,分析姓氏的样本量越大,姓氏推断的变异越小,分析结果越稳定。以余弦距离(dcos为例,当推断姓氏的样本量小于10时,推断结果准确性的误差很大。但当量大于1000时,误差显著减小。此外,候选姓氏越多,准确性的误差越小(图4。[0082]4.4Y-STR信息量对姓氏推断准确性的影响[0083]通过从15个Y-STR位点中随机抽取3、6、9、12个位点分别对姓氏推断来评估,相关结果见图5。不管指定候选姓氏的数目如何变化(C=I〜10,姓氏推断的准确性都随Y-STR的增加而升高。当指定候选姓氏超过8个时,用9个Y-STR位点推断的准确性就与用15个Y-STR位点的结果趋近,但用15个位点的准确性还是显著优于用12个位点推断的结果。以上结果表明,随着Y-STR位点数目的增加,姓氏推断的准确性明显升高。[0084]以上实施例表明本发明方法可以用于Y-STR对中国人群的姓氏进行有效推断。同时,姓氏推断的准确性随着每个姓氏样本量的增加而提高,随使用的Y-STR数目增多而上升。我国有近14亿人口,包含7000多个姓氏,因此可以推断中国姓氏的实际样本量远远比本实例涉及的样本量要大,故可以确定仅用实施例中涉及的15个Y-STR即可对我国人群的姓氏进行可靠推断。此外,实施例中最多仅用了15个Y-STR基因型数据,当前我国公共安全采集的遗传数据涉及的Y-STR位点通常超过17个,因此,可以断定根据当前收集的Y-STR数据对中国人群姓氏推断的准确性会更高。综上,本方法可对中国人群的姓氏进行可靠准确推断并具有广阔的实际应用前景。[0085]采用本发明提供的方法可根据当前法医遗传学分析常用的15个Y-STR位点对我国人群的姓氏进行有效推断;在一定条件下推断的准确性超过80%图3和图4,表明本方法可以有效地利用人群姓氏和Y-STR的数据信息。虽然,本方法有待于在更大的人群中进行验证,但是,本次测试数据中姓氏等级的频率分布theZipfplot图1,大致反映了中国人口姓氏频率分布的特点(Baeketal.2007。因此,可以推断本方法在整个中国人群中也会有效。由此认为Y-STR数据是中国人群姓氏追踪中很有应用前景的数据来源,将有助于未来的法医调查工作。[0086]以上研究结果进一步明确了姓氏的样本量对姓氏推断的准确性有重要影响。姓氏推断的准确性随姓氏样本量的升高呈现明显上升趋势(图4。当姓氏样本量较小时推断的准确性的变异较大,但当样本量足够大时,推断的准确性趋于饱和。例如,当姓氏样本量从223到1899变化时,准确率在82%〜93%之间浮动。这一现象指导我们在实际应用中,应将遗传分析的精力多投入到样本量较小,或者说罕见姓氏上。[0087]虽然用更多的Y-STR位点会获得更准确的姓氏推断结果,但我们的研究结果表明AGCUY18STR荧光检测试剂盒中的15个Y-STR位点可对中国人群的姓氏进行有效推断。当用12个Y-STR位点时,姓氏推断的准确率趋于饱和(图5。但需说明,这只是本分析案例中的一个现象,尚需进一步研究。[0088]以上分析案例中姓氏推断高度的准确性表明中国人群的姓氏与父系遗传谱系之间存在高度的关联性。中国人群的以下几个特征可能对这种高度关联性相关:首先,中国人的姓氏具有很长的演化历史。欧洲的姓氏起源于中世纪,而中国的姓氏起源历史可追溯到4000年前。在中国姓氏较长的演化时间里Y-STR有望积累更多的遗传突变,据此我们可以区分不同的姓氏。[0089]其次,由于文化传统的约束使得中国姓氏具有长期的保守型、稳定性和连续性的特点,这进一步增加了姓氏和Y-STR遗传的同步性(或共祖性)。这种社会文化特征可能提高姓氏和Y-STR平行传演的概率。这一点也反映在姓氏群体大小和Y-STR多样性的线性关系上(图1和图2,表2。由于中国姓氏较长的历史,因此中国姓氏更有可能反映了人群更深层次的遗传分化,所有更容易被检测到。[0090]最后,中国姓氏的分布呈现突出的地理特点。虽然一些大姓氏目前呈现全国分布,但是,大多姓氏在自然社区(自然村、镇、县市)多呈现聚集分布。这一点在我们分析的数据中也有反映(图1。因此,一个小地方同姓的个体更有可能起源于相同的祖宗。这一现象自然会导致姓氏的分离与Y-STR分化程度相一致。[0091]姓氏与Y染色体同步分离为我们根据Y-STR推断姓氏提供了良好的契机。虽然这类方法可能会很有效,但也存在一些局限性。比如私生子、领养、改姓等这些情况可导致姓氏与Y-STR变异不一致,无法根据Y-STR对姓氏进行推断。需要指出,我们分析样本对姓氏的地理覆盖范围有限,因此,我们的方法有待进一步检验。同时,我们分析样本对中国姓氏的代表性尚不充分,仅包含266个姓氏,而且我们的结果主要来自对样本量超过10人的126个姓氏的分析,因此仅代表了中国姓氏和遗传多样性的一小部分。今后将用更大的数据对本发明方法进行检验。[0092]尽管如此,从初步分析结果来看,本方法在姓氏推断中具有良好的应用前景。对于区域性的数据,我们的方法可以根据少数几个Y-STR位点对姓氏精细准确推断。历史早期的姓氏变迀,将对姓氏推断造成挑战,但是可以通过把大数据分割为若干较小的区域性数据集,对其分别进行姓氏推断,予以解决。这一问题也可以通过在姓氏推断过程中利用更多的地理、社会文化信息来解决。[0093]虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之做一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

权利要求:1.Y染色体分子标记在推断姓氏中的应用。2.基于Y染色体分子标记高效推断姓氏的方法,其特征在于,基于Y染色体分子标记,利用统计学方法计算待测样本与数据库样本之间的最小遗传距离,从而得到待测样本的候选姓氏。3.根据权利要求2所述的方法,其特征在于,所述分子标记包括位于Y染色体非重组区域的STR、SNP或RFLP分子遗传标记。4.根据权利要求3所述的方法,其特征在于,包括以下步骤:步骤1:提取待测样本Y的基因组DNA,设计引物或利用商品化试剂盒对样本Y染色体DNA位点进行基因型分析;步骤2:根据步骤1中相应位点的数据信息,包括基因型、等位基因或短片段重复数量,计算待测样本Y与数据库样本X之间的最小遗传距离dY,X,定义待测样本与各已知姓氏样本之间的最小遗传距离ds=minYesdΥ,Χ,其中Sm={Χ:Χ姓氏为m};遗传距离么可根据所使用的Y染色体DNA的数据信息类型进行相应定义;具体地,针对Y-STR数据,定义如下二种距离:⑴余弦距离(cosinedistance,dC0S其中,分别表示样本X和Y的STR位点i和j上的短片段重复数量;⑵溯祖距离(coalescencedistance其中,t为样本X和Y的溯祖时间具为有效群体大小,μ=2.5XHT3为STR位点的平均突变速率,η为分析中应用到的STR位点的总数,ί表示两样本相同STR的位点数目,即给定μ、η、k和Ne3两样本溯祖时间为t的概率可表示为:步骤3:根据ds对姓氏按升序排列;步骤4:选择前C位姓氏作为待测样本Y的候选姓氏;其中,KCS数据库中姓氏总数目。5.根据权利要求4所述的方法,其特征在于,步骤1所述的Y-STR位点包括DYSl96.根据权利要求4或5所述的方法,其特征在于,当步骤2中数据库样本量多50000时,采用余弦距离或溯祖距离计算ds,优选余弦距离,以增加推断时效;当步骤2中样本量50000时,采用余弦距离或溯祖距离计算ds,优选溯祖距离,以提高准确性。

百度查询: 中国科学院北京基因组研究所 基于Y染色体分子标记高效推断姓氏的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。