首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多特征融合与改进胶囊网络的翻译起始位点预测算法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北林业大学

摘要:本发明涉及一种基于多特征融合与改进胶囊网络预测翻译起始位点预测算法:首先获取公开数据集,并对正负样本进行随机打乱并进行数据集的划分。然后使用四种编码方法提取TIS序列中具有生物学意义的多种特征信息。接着使用多尺度卷积神经网络对特征信息进行融合以消除冗余信息。最后使用改进胶囊网络有效的捕捉TIS序列中的层级关系,通过在胶囊网络中添加残差块、通道注意力机制以及BiLSTM网络来进一步优化模型对复杂TIS序列特征的处理能力,从而实现对TIS进行高效的分类。

主权项:1.基于多特征融合与改进胶囊网络的翻译起始位点预测算法,其特征在于:包括如下步骤:步骤1:获取Kalkatawi等人的公开数据集,将数据集进行进一步的预处理后使用四种编码方法提取TIS序列中的特征信息;步骤2:使用所设计的特征融合模块对四种编码信息进行特征融合,以减少不同特征之间的信息冗余并提高特征表达的表现力;步骤3:使用改进的胶囊网络对融合特征进一步的处理,从而实现高效预测;步骤1具体包括如下步骤:步骤1.1:对数据集进行训练集、验证集以及测试集的划分并使用One-hot和NCP编码方法来提取TIS序列中的顺序信息以及化学特征;步骤1.2:接着使用PCP和ND编码方法来捕捉TIS序列中的物理化学性质以及密度特征,同时保留TIS序列的上下文信息;步骤2具体包括如下步骤:步骤2.1:使用设计的两组多尺度卷积来融合上面的特征信息,每组网络分别采用卷积核尺寸为3、5和7而各卷积层对应的卷积核数量分别为53、68和75。每个卷积层都能独立地学习并提取特定尺寸的特征;步骤2.2:通过特征拼接的方式将上面3个并行的多尺度卷积进行拼接,形成了多尺度融合特征表示。接着,对融合的多尺度特征使用批量正则化等技术。最后将两组多尺度卷积输出进行拼接得到最终的融合特征;步骤3具体包括如下步骤:步骤3.1:使用改进的胶囊网络对由融合模块得到的融合特征进行进一步处理。首先使用卷积层和残差块来深度提取TIS序列中的局部特征。卷积层由1个卷积构成,卷积核数量为72,卷积核尺度为5。整个残差块由两个卷积组成,卷积核数量与卷积层中一样都为72,卷积核尺度设置为3;设计了一种新的注意力机制添加在残差块后面。利用平均池化和最大池化操作,在空间维度上聚合TIS序列中的关键特征,接着,将特征向量送入到多层感知器中以生成注意力图,并对注意力图进行逐元素求和来生成融合注意力图,然后通过对融合的注意力图使用Sigmoid激活函数,形成注意力权重,最后,将注意力权重和深度局部特征Xres之间进行逐元素乘法进行自适应特征优化,该过程如下所示: 其中Favg与Fmax表示平均池化和最大池化操作,δmlp表示经过多层感知器进行处理,表示经过优化后的输出特征。通过添加神经元数量为128的BiLSTM来捕捉TIS序列中的长期依赖关系,将输出送入主胶囊层中构建胶囊结构,主胶囊层包含20个卷积胶囊通道,每个胶囊有8个卷积单元,成功的将之前的特征转化为维度为8的初级胶囊i。将初级胶囊i的输出向量定义为ui,每个ui都需要与可训练的参数矩阵Wij相乘,得到预测胶囊向量Capsj|i,接着将Capsj|i与耦合系数Cij向量相乘得到输出向量,得到高级胶囊j的输出向量γj,由下面的公式给出 最后,计算两个胶囊向量的L2范数,并且将计算结果送入具有1个神经元并使用Sigmoid激活函数的全连接层得到最终的分类结果;步骤3.2:本发明使用专门设计的边际损失函数来训练模型的性能,公式如下所示: 其中θ表示分类的类别数量,如果存在类别θ,则Hθ则为1。经过训练和参数的调整使模型的性能达到最优。

全文数据:

权利要求:

百度查询: 东北林业大学 基于多特征融合与改进胶囊网络的翻译起始位点预测算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。