广西师范大学王金艳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广西师范大学申请的专利基于联邦安全协作下的药物分子性质预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116580785B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310575391.9,技术领域涉及:G16C20/50;该发明授权基于联邦安全协作下的药物分子性质预测方法是由王金艳;宁杨友;颜东琪;李先贤设计研发完成,并于2023-05-22向国家知识产权局提交的专利申请。
本基于联邦安全协作下的药物分子性质预测方法在说明书摘要公布了:本发明公开了一种基于联邦安全协作下的药物分子性质预测方法,其特征在于,包括如下步骤:1)划分客户端图数据集;2)本地客户端模型的训练;3)采用个性化本地差分隐私进行扰动;4)相似度计算;5)服务器模型的训练;6)本地模型的抗噪声训练。这种方法不仅可以保护图联邦学习范式中的隐私数据,而且对模型的性能影响小,能提高预测药物性质的准确性。
本发明授权基于联邦安全协作下的药物分子性质预测方法在权利要求书中公布了:1.一种基于联邦安全协作下的药物分子性质预测方法,其特征在于,包括如下步骤: 1划分客户端图数据集G:给每个客户端划分药物分子的图数据集G,所有客户端之间的数据集分布是异质的、且数量上是不平衡的,每个客户端的数据集都包含药物分子领域的数据,其中,数据集中80%用于训练、20%用于测试,划分客户端图数据集G的过程如下:首先从众包平台中获取初始图数据集G,其中G=V,E,X,Y,V为节点集合、表示图数据集G中的所有节点,E为边集,表示图数据集G中节点间的连接关系,X为图数据集G的特征矩阵,Y为由各个图标签组成的标签集,采用迪利克雷分布的参数α调整不同客户端之间数量的不平衡程度; 2本地客户端模型的训练:本地客户端通过私有数据集学习到分子图表示低维向量embedding和分子性质预测类别的概率值logits,即将划分好的本地私有药物分子训练数据集通过图同构网络GIN模型进行训练,从而学习到图表示embedding,这些图表示作为基于前馈神经网络分类器模型的输入,并用于学习药物分子性质预测类别的概率分数logits,具体为:对所有图的特征矩阵X和邻接矩阵A=V,E,基于图同构网络GIN模型学习到图的低维嵌入表示embedding: 即通过消息传递机制学习到图上所有节点L层的节点表示hv,如公式1所示: 最后池化图上节点的表示后得到图表示hG,即低维向量embedding,如公式2所示: hG=readout{hv;v∈V}2, 针对所得到的图表示,采用基于全连接层网络的分类器模型进行药物分子性质预测,预测结果为药物分子所属类别的概率zc,即“logits”,如公式3所示: zc=fcWc;hG3; 3采用个性化本地差分隐私进行扰动:将embedding,logits和分子数据的标签进行添加噪声脱敏后上传到中央服务器端,对于学习到的图向量embedding以及预测概率值logits这类连续型向量,采用mut-bit机制来进行扰动,采用个性化本地差分隐私的方法针对当前药物分子预测场景对样本数据进行适应性处理,具体为: 3-1将embedding或logits中的每个向量都记为xi,j,选择其中向量的m个维度进行扰动,在隐私预算设置为∈时,采用伯努利采样将向量xi,j编码为新的向量如公式4所示: 经过伯努利采样的编码对原始进行了扰动,但扰动后的向量是有偏的,因此,把扰动后的向量进行转换,使得转换后的向量x′i,j在统计上确保是无偏估计,如公式5所示: 3-2在处理离散型数据标签时,采用随机响应机制进行扰动,并且在针对当前药物分子预测场景进行优化后的随机响应机制中,不会对敏感标签进行反转,而是根据非敏感样本标签的情况,按照概率进行反转,同时以概率进行保持不变; 4相似度计算:服务器端对上传的图表示embedding进行相似度计算,将同质的embedding聚类划分到不同簇中,客户端上传的图表示embedding分布也是异质的,服务器根据每个客户端上传扰动后的图表示向量embedding,采用K-Means算法计算各个客户端的图表示的相似度,并根据该相似度将同质的客户端数据聚类在一起组成簇,具体为:所有客户端上传的图表示embedding和预测概率值logits上传到中央服务器后,采用K-Means聚类算法对图表示进行处理,即先对图表示{hG1,hG2,...,hGK}进行相似度计算,然后进行聚类操作,将K个客户端的划分到T个簇中{C1,C2,...,CT}; 5服务器模型的训练:分别将簇中的embedding作为分类器的输入,将重新学习好的logits,再返回给本地用户,即将聚类后的embedding作为这些簇中模型的输入,并结合知识蒸馏的训练方式,进一步优化模型概率预测准确性,最后把每个簇中学习到的预测概率值logits作为知识返回到本地客户端中,具体为:对于每一个簇Ci,将每个簇中客户端的图表示embedding作为输入,去训练该簇内的分类器模型,学习该簇内模型的预测概率zs,如公式6所示: zs=fsWs;hG6, 采用KL散度将簇中分类器模型学习到的预测概率值zs与客户端上传的预测概率值zc一起构造知识蒸馏的损失函数进行优化,如公式7所示: 最后将服务器端学习到的所有簇中更为准确的预测概率值zs返回给本地客户端; 6本地模型的抗噪声训练:采用对比学习的方法参与本地模型的训练,具体为:本地客户端采用将返回的预测概率值去构造对比学习损失项,即将本簇中的全局预测概率值zs与本地模型学习的预测概率值zc视为正样本,而其它簇中的全局预测概率与本地模型的预测概率值zc视为负样,从而构造客户端对比学习的损失函数lCL,如公式8所示:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西师范大学,其通讯地址为:541004 广西壮族自治区桂林市育才路15号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。