买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西湖大学
摘要:本发明公开了一种寻找生物中具有特定功能的蛋白质的方法,本发明首次公开使用AlphaFoldProteinStructureDatabase数据库结合本地蛋白结构预测对一个生物的全蛋白结构收集后根据结构相似性来挖掘未知蛋白功能,其能够寻找到常规序列比对不能注释到蛋白功能的未知蛋白中符合目的功能的基因,还可以寻找到未研究验证过的物种中与已知功能蛋白序列相似度差距较大但功能一致的蛋白;并且,适用于任何已知序列的蛋白,有效地解决了现有技术在蛋白质功能注释方面的局限,特别是在处理序列差异大但结构和功能可能相似的蛋白质时显示出了其独特的优势。
主权项:1.一种寻找生物中具有特定功能的蛋白质的方法,其特征在于,所述方法包括如下步骤:1收集并提取所述生物的DNA,进行基因组测序及组装,并且对组装结果进行蛋白质注释;2采用uniprot数据库对所得蛋白质序列进行序列比对,以识别与已知蛋白质序列相匹配的序列;在AlphaFoldProteinStructureDatabase数据库中下载与所述匹配序列相对应的已知蛋白质结构;3对于未完全匹配到数据库的蛋白,使用本地安装的AlphaFold软件对蛋白序列进行结构预测;4整理并重命名所得蛋白质结构文件,构建对应所述生物蛋白名称的蛋白质结构数据库;5使用US-align软件对步骤4构建的新的蛋白质结构数据库进行全蛋白结构比对,以识别与特定目标蛋白质结构相似的蛋白质;6基于结构比对结果,选择具有与所述目标蛋白质相似结构的蛋白质;7对所选择的蛋白质进行表达、纯化及功能验证;使用US-align软件对蛋白结构进行比对时,比对的结果存储于结果文件中,其中输出文件中每行为一对蛋白的比对结果,内容包括#PDBchain1、PDBchain2、TM1、TM2、RMSD值,以及按公式计算每行中两个蛋白相似度的特征值VD,其中VD值越接近于零说明该对蛋白间结构越接近;其中,#PDBchainl为蛋白对中第一个蛋白的名称,PDBchain2为蛋白对中第二个蛋白的名称,TM1为根据第一个蛋白长度进行均一化的TM-score、TM2为根据第二个蛋白长度进行均一化的TM-score、RMSD为两个蛋自结构的均方根偏差;其中TM-score的值位于0,1]区间,其中1表示结构完全匹配,当TM-score≥0.5时,意味着蛋白质的结构共享相同的全局拓扑结构;根据US-align软件计算输出结果文件中的TM1、TM2和RMSD值和根据此三值再行计算所得的VD值对匹配到的蛋白结构分别排序,并以此进行选择,选择的标准为:当具有小于0.85的VD值的蛋白对时,以最小的VD值所对应蛋白对中得到的蛋白为主筛选结果,并以VD值与最小VD值的差小于0.1的蛋白作为候选蛋白;当所有蛋白对的VD值都大于0.85时,查看是否存在TM1或TM2大于0.6且RMSD值小于5的蛋白对,若有,则按RMSD值由小到大最多选取5个做候选蛋白,如不存在,则认为所述生物中不存在与特定目标蛋白质结构相似的蛋白。
全文数据:
权利要求:
百度查询: 西湖大学 一种寻找生物中具有特定功能的蛋白质的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。