郑州大学李育光获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉郑州大学申请的专利一种基于多尺度建模的蛋白质序列特征表示方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116312742B 。
龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310150446.1,技术领域涉及:G16B5/00;该发明授权一种基于多尺度建模的蛋白质序列特征表示方法是由李育光;鲁帅;南晓斐;张守涛;周清雷设计研发完成,并于2023-02-22向国家知识产权局提交的专利申请。
本一种基于多尺度建模的蛋白质序列特征表示方法在说明书摘要公布了:本发明公开了一种基于多尺度建模的蛋白质序列特征表示方法,该方法包括以下步骤:1将蛋白质序列经过ProtBert模型,得到蛋白质初始特征矩阵;2在蛋白质初始特征矩阵上利用多尺寸的滑动窗口,分别为窗口内不同位置的残基分配注意力系数,通过注意力机制计算出蛋白质注意力特征矩阵;3在蛋白质注意力特征矩阵上利用多尺度卷积核分别进行卷积,最终得到基于注意力机制和卷积网络的蛋白质序列特征矩阵。
本发明授权一种基于多尺度建模的蛋白质序列特征表示方法在权利要求书中公布了:1.一种基于多尺度建模的蛋白质序列特征表示方法,其特征在于,该方法包括以下步骤: 1将含有L个残基的蛋白质序列信息经过ProtBert模型得到L*1024维度的蛋白质初始特征矩阵; 2在蛋白质初始特征矩阵上利用尺寸分别为5、7、9的滑动窗口,运用注意力机制算法得到环境向量矩阵,将三个窗口得到的环境向量矩阵进行横向拼接得到蛋白质注意力特征矩阵; 3在蛋白质注意力特征矩阵上分别利用卷积核尺度为3、5、7的一维卷积核进行卷积,将不同尺度卷积核得到的卷积特征矩阵进行横向拼接,以此得到基于注意力机制和卷积网络的蛋白质序列特征矩阵; 步骤2中,在蛋白质初始特征矩阵上利用尺寸分别为5、7、9的滑动窗口,运用注意力机制算法得到环境向量矩阵,将三个窗口的到的环境向量矩阵进行横向拼接,得到蛋白质注意力特征矩阵,其方法如下: 蛋白质初始特征矩阵维度为L*1024,设滑动窗口尺寸为w,w分别取值为5、7、9,则每次滑动窗口内获取的特征矩阵维度为w*1024; 设位于滑动窗口中间的行向量为目标残基向量ri,窗口内其余行向量为相邻残基向量rj,相邻残基向量定义如下: 当w取值为5,rj∈ri-2,ri-1,ri+1,ri+2}1 当w取值为7,rj∈{ri-3,ri-2,ri-1,ri+1,ri+2,ri+3}2 当w取值为9,rj∈{ri-4,ri-3,ri-2,ri-1,ri+1,ri+2,ri+3,ri+4}3 在不同尺寸的滑动窗口滑动时,保证每一个残基向量都可以成为目标残基向量,在滑动窗口工作前,在蛋白质初始特征矩阵前后各添加w-12行零向量; 滑动窗口开始工作时,每一个尺寸的滑动窗口都以蛋白质初始特征矩阵的第一行r1为目标残基向量,滑动步幅为1,第二步以蛋白质初始特征矩阵的第二行r2为目标残基向量,以此类推,至到最后一步时滑动窗口以rL为目标残基向量; 目标残基向量和每个相邻残基向量的相似性值由下面的公式计算得出: 进行SoftMax归一化,得到相邻残基向量rj的注意力系数αj: 将窗口内所有相邻残基的注意力系数αj与该相邻残基向量rj进行相乘后求和以得到目标残基向量ri的环境向量gi,环境向量维度为1*1024,具体公式如下: gi=∑αjrj6 当滑动窗口完成滑动后,得到当前滑动窗口尺寸下的环境向量矩阵,维度为L*1024,将三个滑动窗口得到的环境向量矩阵进行横向拼接,得到蛋白质注意力特征矩阵,矩阵有L行,有3*1024列,即3072列,即矩阵维度为L*3072; 步骤3中,在蛋白质注意力特征矩阵上分别利用卷积核尺度为3、5、7的一维卷积核进行卷积,将不同尺度卷积核得到的卷积特征矩阵进行横向拼接,最终得到基于注意力机制和卷积网络的蛋白质序列特征矩阵,其方法如下: 蛋白质注意力特征矩阵维度为L*3072,设蛋白质注意力特征矩阵表示为S=[r′1,r′2,…,r′i,…,r′L-1,r′L]T,其中,r′i为蛋白质注意力特征矩阵中的残基向量表示,维度为1*3072,设一维卷积核尺度为k,即卷积核维度为1*k,k取值为3、5、7; 三个尺度的一维卷积核分别对r′i进行卷积操作,其公式如下: 其中,右上角角标k用于区分当前计算卷积核的尺度,Wk为权重矩阵,其维度与卷积核尺度一致,bk为偏置项,fk为激活函数,为基于卷积的残基向量表示,维度为1*3072; 每一个卷积核完成对蛋白质注意力特征矩阵S卷积后,生成一个卷积特征矩阵,卷积特征矩阵维度为L*3072,将三个不同尺寸卷积核得到的卷积特征矩阵进行横向拼接,得到最终的基于多尺度建模的蛋白质序列特征矩阵β,矩阵β有L行,有3*3072列,即9216列,矩阵β维度为L*9216。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人郑州大学,其通讯地址为:450040 河南省郑州市高新技术开发区科学大道100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励