Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

非编码RNA中小开放阅读窗编码多肽能力预测方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:常州大学

摘要:本发明公开了非编码RNA中小开放阅读窗编码多肽能力预测方法及系统,涉及非编码RNA中sORF编码多肽能力预测技术领域,包括采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据,进行数据预处理;构建sORF序列和sORF序列对应的多肽序列特征空间;通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型;验证和评估DeepNCsORF模型。本发明通过多种特征表征来描述序列,填补了单一数据来源的不足,实现多路径信息融合,提出三路交互式注意力机制来更好地合成三个子网络的输出,充分挖掘不同网络之间的关联性,提取重要信息,预测效果优于仅考虑单一特征的方法。

主权项:1.非编码RNA中小开放阅读窗编码多肽能力预测方法,其特征在于:包括,采集非编码RNA中小开放阅读窗sORF编码多肽和不编码多肽序列数据,进行数据预处理;构建sORF序列和sORF序列对应的多肽序列特征空间;通过多肽序列特征空间构建融合多空间视图的深度学习模型DeepNCsORF模型;验证和评估DeepNCsORF模型;所述多肽序列数据包括,获取TransLnc中的所有核苷酸和氨基酸序列,选择有1到4种实验证据支撑的序列数据作为正样本,将没有实验证据支撑的序列数据作为负样本,运用CD-HIT按80%的阈值将多肽序列数据集中的冗余数据去除,按1:1比例随机抽取数据正负样本,构建数据集;所述sORF序列对应的多肽序列特征空间包括基于图的核苷酸序列表征、基于进化信息的多肽序列表征、基于比对信息的多肽序列表征、基于生化特征的多肽序列表征和基于大模型预训练多肽序列表征;所述基于图的核苷酸序列表征包括,将核苷酸序列划分为3mer片段,将给定的核苷酸序列按照连续的三个核苷酸为一组进行划分,得到一系列的3mer片段,对于长度为N的核苷酸序列,得到N-2个3mer片段,然后构建3mer图的节点,将每个3mer片段作为3mer图的节点,每个节点代表一个唯一的3mer片段,构建3mer图的边,对于相邻的3mer片段,添加一条边表示相邻的3mer片段之间的连接,如果两个3mer片段在原始核苷酸序列中是连续的,则两个3mer片段之间存在一条边,将核苷酸序列转换为3mer图后,得到一个图结构,其中节点表示3mer片段,边表示3mer片段之间的连接,将图结构联合图卷积网络;所述基于进化信息的多肽序列表征包括,多肽序列的进化信息使用位置特异性评分矩阵表示,收集已有物种的蛋白质序列,使用多序列比对算法ClustalW,将多肽序列比对到收集到的蛋白质序列,根据比对结果,统计每个位置上氨基酸残基的频率和出现概率,得到初始的频率矩阵,频率矩阵的大小为m×n,其中,m为氨基酸的种类数目,n为比对序列的长度,对初始频率矩阵进行修正,修正方法为加权,得到修正后的矩阵,即为PSSM,PSSM矩阵的每一列代表一个氨基酸残基,每一行代表比对序列中的一个位置,矩阵中的每个元素表示位置上某个氨基酸残基的评分,若评分值高,则表示残基在位置上的保守性高,若评分值低,则表示残基在位置上的变异性高,对给定的长度为L的多肽序列,PSSM矩阵的大小为L*20,L为多肽序列的长度,20种氨基酸在每个位置出现的评分;所述基于比对信息的多肽序列表征包括,多肽序列的比对信息用多肽的接触图表示,使用AlphaFold2获取多肽的三维结构,从多肽的结构数据中提取出每个氨基酸残基的原子坐标,选择在蛋白质结构中稳定的Cα原子的坐标,对于每个氨基酸残基,使用欧氏距离计算氨基酸残基与其他残基之间的距离,并根据设定的阈值,判断是否存在接触,若两个氨基酸残基的距离小于阈值,则认为两个氨基酸残基之间存在接触,将对应的接触图元素设置为1,若两个氨基酸残基的距离大于阈值,则将对应的接触图元素设置为0,将所有氨基酸残基之间的接触情况记录在接触图中,形成一个对称的二维矩阵,矩阵的行和列对应于氨基酸的索引,得到的多肽序列的接触图;所述基于生化特征的多肽序列表征包括,多肽的序列的生化特征使用AAindex表示,其中AAindex1是AAindex数据库中的一个子集,通过AAindex1将序列中每个氨基酸转化为544维度的向量,对给定长度为L的多肽序列,得到L*544的矩阵;所述基于大模型预训练多肽序列表征包括,预训练模型通过大规模蛋白质数据学习多肽序列的高级表示,捕获语义和上下文信息,ProtT5通过自注意力机制捕获序列的全局依赖,将长度为L的序列编码为L*1024维矩阵,ESM-2采用自回归方式预测氨基酸,建模局部依赖关系,学习序列中的语义信息和上下文关联,通过编码器将序列编码为L*1280维矩阵。

全文数据:

权利要求:

百度查询: 常州大学 非编码RNA中小开放阅读窗编码多肽能力预测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。