常州大学杨森获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉常州大学申请的专利基于CatBoost算法的长非编码RNA识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114822694B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210407059.7,技术领域涉及:G16B30/00;该发明授权基于CatBoost算法的长非编码RNA识别方法是由杨森;王少聪;封红旗;朱轮设计研发完成,并于2022-04-19向国家知识产权局提交的专利申请。
本基于CatBoost算法的长非编码RNA识别方法在说明书摘要公布了:本发明涉及集成学习技术领域,尤其涉及基于CatBoost算法的长非编码RNA识别方法,包括:从数据库中获取包含若干个RNA序列的密码子相关特征、鸟嘌呤‑胞嘧啶相关特征、转录本相关特征、序列结构相关特征、开放阅读框相关特征,并建立RNA序列特征向量;通过特征选择对RNA序列特征向量进行冗余特征过滤;对过滤后的RNA序列特征向量进行融合;将融合后的RNA序列特征向量送入CatBoost模型进行决策分类,根据概率分数判断为长非编码RNA或蛋白质编码RNA。本发明解决现有技术中长非编码RNA识别方法的不足之处,实现高准确率、高精确率、高马修斯相关系数、高效的长非编码RNA预测方法。
本发明授权基于CatBoost算法的长非编码RNA识别方法在权利要求书中公布了:1.基于CatBoost算法的长非编码RNA非诊断的识别方法,其特征在于,包括以下步骤: S1、从数据库中获取包含若干个RNA序列的密码子相关特征、鸟嘌呤-胞嘧啶相关特征、转录本相关特征、序列结构相关特征、开放阅读框相关特征,并建立RNA序列特征向量; 密码子相关特征包括:终止密码子的数量、终止密码子的频率和Fickettscore;鸟嘌呤-胞嘧啶相关特征包括:GCframescore和GC含量;转录本相关特征包括:k-mer、CTD和Hexamer;序列结构相关特征包括:Mw、PI、Gravy、Instabilityindex和EIIP值;开放阅读框相关特征包括:ORF长度、ORFcoverage和ORF-attention特征; Mw为预测的肽分子权重,Gravy和Instabilityindex分别代表肽的亲水性和稳定性平均值; ORF-attention特征来源于RNA序列前三长的ORF的密码子相关特征、鸟嘌呤-胞嘧啶相关特征、转录本相关特征和结构相关特征; 序列结构相关特征中EIIP值用来探索序列结构相关特征的物理化学性质,EIIP值直接应用于RNA序列,设为序列的EIIP值序列,对使用快速傅里叶变换可以得到相应的功率谱:;对于蛋白质编码转录本,在N3位置处有一个明显的峰值,但在非编码转录本中无明显的峰值; S2、通过特征选择对RNA序列特征向量进行冗余特征过滤; S3、对过滤后的RNA序列特征向量进行融合; 步骤S3包括:使用concatenate函数将6个过滤后的RNA序列特征向量拼接在一起,得到拼接后的蛋白质转录本或长非编码RNA的特征向量; S4、将融合后的RNA序列特征向量送入CatBoost模型进行决策分类,根据概率分数判断为长非编码RNA或蛋白质编码RNA; 通过Catboost的LFC方法对拼接后的RNA序列特征向量进行排序;设置决策树学习率、决策树深度、损失函数、训练轮数和early-stop轮数,得到决策概率分数,通过决策概率分数判断是长非编码RNA或蛋白质编码RNA; CatBoost模型包括: 其中,F代表一组输入特征,为某一维特征,代表替代数值因子的预测值,代表数值因子,代表给定特征集挑选出的特定特征; 其中,表示当数值因子变化时的预测值,表示修改后的数值因子。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人常州大学,其通讯地址为:213164 江苏省常州市武进区滆湖中路21号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励