买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉大学
摘要:本发明公开了一种基于低精度RBF核的支持向量机的ncRNA识别方法、系统及设备,包括数据处理,模型训练和模型预测三步骤。第一步,将RNA数据处理成模型所需的标准格式,第二步,选择精度模式,将RNA数据输入模型进行训练,第三步,训练完成的模型对待识别的RNA数据进行预测。实验结果显示,上述方法在较为准确地识别ncRNA的情况下,提升了基于RBF核的支持向量机模型的训练以及预测的计算效率。
主权项:1.一种基于低精度RBF核的支持向量机的ncRNA识别方法,其特征在于,包括以下步骤:步骤1:将待识别的RNA数据进行预处理;步骤2:针对预处理后的RNA数据,提取出数据特征;步骤3:将提取的数据特征信息输入低精度RBF核的支持向量机中进行ncRNA识别;所述低精度RBF核,为kx1,x2=exp-γ||x1-x2||2;其中γ为核函数系数,x1与x2为任意两个RNA的特征组成的向量;所述低精度RBF核的支持向量机,是训练好的低精度RBF核的支持向量机;所述低精度RBF核的支持向量机训练过程包括以下子步骤:1构建训练集,提取训练集中RNA数据的八个特征与标签;所述八个特征,第一个特征为Dynalign算法计算得到的双链RNA的ΔG°total=ΔG°1+ΔG°2+间隙数量×ΔG°gp;其中ΔG°1与ΔG°2分别为两个序列的二级结构的预测折叠自由能变化,ΔG°gp是对间隙施加的惩罚;第二个特征为两个序列中较短序列的长度;第三个特征为某一个序列中碱基‘A’出现的频率;第四个特征为某一个序列中碱基‘U’出现的频率;第五个特征为某一个序列中碱基‘C’出现的频率;第六个特征为另一个序列中碱基‘A’出现的频率;第七个特征为另一个序列中碱基‘U’出现的频率;第八个特征为另一个序列中碱基‘C’出现的频率;所述标签,ncRNA数据的标签为1,非ncRNA数据的标签为-1;2设置停机条件tol,并将训练集中数据输入低精度RBF核的支持向量机中进行训练;所述低精度RBF核的支持向量机,包括五种近似模式的RBF核的支持向量机,分别为一阶近似模式,二阶近似模式,三阶近似模式,四阶近似模式和五阶近似模式;一阶近似模式使用了一阶泰勒展开:expk=1+k;其中k表示将RBF核函数exp-γ||x1-x2||2缩放2r后使得k∈0,1的变量,满足等式2r×expk=exp-γ||x1-x2||2,γ为RBF核函数系数,x1与x2为任意两个RNA的特征组成的向量,r为指数位;二阶近似模式使用了二阶泰勒展开:expk=1+k+k22!;三阶近似模式使用了三阶泰勒展开:expk=1+k+k22+k33!;四阶近似模式使用了四阶泰勒展开:expk=1+k+k22+k33!+k44!;五阶近似模式使用了五阶泰勒展开:expk=1+k+k22+k33!+k44!+k55!;3当计算误差小于停机条件tol时结束计算,获得训练好的低精度RBF核的支持向量机。
全文数据:
权利要求:
百度查询: 武汉大学 基于低精度RBF核的支持向量机的ncRNA识别方法、系统及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。