买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河南城建学院
摘要:本发明公开了一种具有编码蛋白潜力的ncRNA的识别方法,根据ncRNA的序列,首先通过对比学习框架获取ncNRA序列的低维向量表示,同时,也根据ncRNA序列计算其一些重要的统计特征,比如ORF覆盖率,Fickett等。然后,通过使用多模态特征融合方法进行特征融合,并把融合后的特征作为多层神经网络的输入,实现ncRNA编码潜能的预测。本发明与现有的技术相比,通过自监督的方式学习序列的低维向量表示很好地避开了绝大部分ncRNA数据未标注的问题,另外,提出使用注意力门控机制来学习特征之间非线性融合的普适性方法,以此来捕获特征之间的复杂关系。本发明可以比以前的技术更准确地识别出能够编码蛋白的ncRNA,在一定程度上,解决了生物实验方法的困难性大、盲目性、成本高的问题。
主权项:1.一种具有编码蛋白潜力的ncRNA的识别方法,其特征在于,包括如下步骤:步骤1,对ncRNA序列进行变换,即对每一个ncRNA序列S,产生两个变换序列S1=AugS,seed1和S2=AugS,seed2,其中,seed1和seed2是两个随机种子;步骤2,ncRNA经步骤1变换后得到序列假定为S1,通过滑动长度k的窗口来将序列S1转换为重叠的固定长度k-mer子序列;步骤3,构建基于Transformer的学习模型f˙,并把步骤2得到的k-mer子序列作为f˙的输入学习ncRNA的表示,即,H1=fS1,H2=fS2;步骤4,用含有一个隐藏层的多层神经网络作为非线性投影函数g˙将步骤3得到的向量表示投影到新空间,即zi=ghi=W2σW1hi;步骤5,定义对比损失函数,最大化同一个ncRNA序列不同变换序列之间的一致性,训练模型,模型训练结束后,encoder函数f˙的输出即为ncRNA的向量表示;步骤6,计算ncRNA的统计特征,包括ORF长度、ORF的覆盖率、Fickett分数、Hexamer分数、核苷酸偏倚、GC含量,AUG含量及等电点分数等;步骤7,把步骤6得到的统计特征通过非线性方式叠加到步骤5得到的序列的嵌入表示he上;步骤8,在步骤7获得融合向量hf后,再把此向量输入到全连接神经网络中即可实现对ncRNA编码蛋白潜能的预测。
全文数据:
权利要求:
百度查询: 河南城建学院 一种具有编码蛋白潜力的ncRNA的识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。