买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种双向二核苷酸位置特异性偏好和点互信息DNARNA序列编码方法,由构建DNARNA序列核苷酸位置特异性偏好矩阵、构建DNARNA序列双向二核苷酸位置特异性偏好矩阵、确定DNARNA序列核苷酸的点互信息值、特征组合、DNARNA序列编码步骤组成。为了从DNARNA序列数据中提取更多二核苷酸的位置信息,引入参数α表示二核苷酸间距离,并将α不同取值的数值特征向量组合为全局高维数值特征向量,在用于DNA的4mC甲基化位点和RNA的m6A甲基化位点识别中具有非常好的性能。本发明得到的DNARNA数值特征数据具有分类信息多、特征间冗余度低、训练的模型识别准确率高等优点,可用于DNARNA序列的编码。
主权项:1.一种双向二核苷酸位置特异性偏好和点互信息DNARNA序列编码方法,其特征在于由以下步骤组成:1构建DNARNA序列核苷酸位置特异性偏好矩阵给定DNARNA序列数据集D,该数据集由正类数据集和负类数据集组成;按下式确定正类数据集的核苷酸位置特异性偏好矩阵 其中,A、C、G、X是DNARNA的4种核苷酸,X在DNA序列数据集中表示为核苷酸T,在RNA序列数据集中表示为核苷酸U,i为核苷酸的位置,1≤i≤l,i的取值为有限的正整数,l为DNARNA序列样本的核苷酸长度,l的取值为奇数,分别是正类数据集所有序列样本第i个位置上核苷酸A、C、G、X的出现频率;按下式确定负类数据集的核苷酸位置特异性偏好矩阵 其中,分别是负类数据集所有序列样本第i个位置上核苷酸A、C、G、X的出现频率;2构建DNARNA序列双向二核苷酸位置特异性偏好矩阵按下式确定正类数据集的前向二核苷酸位置特异性偏好矩阵 其中,AA、AC、…、XX为DNARNA的4种核苷酸A、C、G、X构成的16种二核苷酸,α表示两个核苷酸之间的距离,0≤α≤l-32,j为核苷酸的位置,α+2≤j≤l-α-1,j的取值为有限的正整数,分别是正类数据集所有序列样本第j个、第j+α+1个位置上二核苷酸AA、AC、…、XX的出现频率;按下式确定正类数据集的后向二核苷酸位置特异性偏好矩阵 其中,分别是正类数据集所有序列样本第j个、第j-α-1个位置上二核苷酸AA、AC、…、XX的出现频率;按下式确定负类数据集的前向二核苷酸位置特异性偏好矩阵 其中,分别是负类数据集所有序列样本的第j个、第j+α+1个位置上二核苷酸AA、AC、…、XX的出现频率;按下式确定负类数据集的后向二核苷酸位置特异性偏好矩阵 其中,分别是负类数据集所有序列样本的第j个、第j-α-1个位置上二核苷酸AA、AC、…、XX的出现频率;3确定DNARNA序列核苷酸的点互信息值3.1按下式确定待编码DNARNA序列核苷酸在正类数据集中的前向点互信息值 其中,x是第j个位置的核苷酸,x∈{A,C,G,X},z是第j+α+1个位置的核苷酸,z∈{A,C,G,X},是正类数据集所有序列样本第j个、第j+α+1个位置上二核苷酸xz的出现频率,是正类数据集所有序列样本第j个位置上核苷酸x的出现频率,是正类数据集所有序列样本第j+α+1个位置上核苷酸z的出现频率;按下式确定待编码DNARNA序列核苷酸在正类数据集中的后向点互信息值 其中,y是第j-α-1个位置的核苷酸,y∈{A,C,G,X},为正类数据集所有序列样本第j个、第j-α-1个位置上二核苷酸xy的出现频率,是正类数据集所有序列样本第j-α-1个位置上核苷酸y的出现频率;待编码DNARNA序列样本第j个位置的核苷酸在正类数据集中的点互信息编码值定义为前向点互信息值和后向点互信息值的均值,长度l的DNARNA序列样本编码成长度为l-2α-2的点互信息特征向量V+: 3.2按下式确定待编码DNARNA序列核苷酸在负类数据集中的前向点互信息值 其中,为负类数据集所有序列样本第j个、第j+α+1个位置上二核苷酸xz的出现频率,为负类数据集所有序列样本第j个位置上核苷酸x的出现频率,为负类数据集所有序列样本第j+α+1个位置上核苷酸z的出现频率;按下式确定待编码DNARNA序列核苷酸在负类数据集中的后向点互信息值 其中,为负类数据集所有序列样本第j个、第j-α-1个位置上二核苷酸xy的出现频率,为负类数据集所有序列样本第j-α-1个位置上核苷酸y的出现频率;待编码DNARNA序列样本第j个位置的核苷酸在负类数据集中的点互信息编码值定义为前向点互信息值和后向点互信息值的均值,长度l的DNARNA序列样本编码成长度为l-2α-2的点互信息特征向量V-: 3.3给定长度l的待编码DNARNA序列样本,通过向量V+和V-对应元素相减确定其特征向量V:V=[Vα+2,Vα+3,…,Vj] 4特征组合参数α取值为0时,特征向量V0为[V2,V3,V4,…,Vl-2,Vl-1],元素个数是l-2,α取值为1时,特征向量V1为[V3,V4,V5,…,Vl-3,Vl-2],元素个数是l-4,…,α取值为l-52时,特征向量Vl-52为[Vl-12,Vl+12,Vl+32],元素个数是3,α取值为l-32时,特征向量Vl-32为[Vl+12],元素个数是1;将参数α不同取值确定的特征向量组合成元素个数为l-124的高维特征向量[V0,V1,…,Vl-52,Vl-32];5DNARNA序列编码采用上述步骤1-步骤4,将DNARNA序列数据集D编码为数值数据集D',s为数值数据集D'的样本数,s的取值为有限的正整数,l-124为数值数据集D'的特征数。
全文数据:
权利要求:
百度查询: 陕西师范大学 双向二核苷酸位置特异性偏好和点互信息DNA/RNA序列编码方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。