买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种基于属性值的条件分子生成方法及装置,涉及条件分子生成技术领域,该方法将smiles分子表达式和对应的属性值按照设定的形式进行组合,构建成新分子;收集新分子组成新的数据集,并按照设定比例划分为训练集和验证集;将新分子的条件属性值进行重新编码,完成新分子的条件属性token标志设计处理;构建预训练模型并训练,获得训练好后的预训练模型;根据设定属性值,生成第一个token标志;将第一个token标志与设定属性值重新输入预训练模型,获得第二个token标志;进行重复迭代生成,直至生成出终止符,停止生成,获得条件分子。本发明通过设定属性条件,提升生成分子的准确性,大大提高生成分子的效率。
主权项:1.一种基于属性值的条件分子生成方法,其特征在于,包括:通过指定公开数据库收集smiles分子表达式,将收集到的所述smiles分子表达式进行去重处理,获得分子数据集;对所述分子数据集中每一个smiles分子表达式进行计算,获得每一个smiles分子表达式同一性质的属性值;将每一个smiles分子表达式和对应的所述属性值按照设定的形式进行组合,构建成新分子;收集所述新分子组成新的数据集,并将所述新的数据集按照设定比例划分为训练集和验证集;将所述新分子的条件属性值进行重新编码,完成所述新分子的条件属性token标志设计处理;根据transformer模型构建预训练模型,通过所述训练集、所述验证集及交叉熵损失函数对所述预训练模型进行训练,获得训练好后的预训练模型;根据设定属性值,通过所述训练好后的预训练模型生成第一个token标志;将所述第一个token标志与所述设定属性值重新输入所述训练好后的预训练模型,获得第二个token标志;所述训练好后的预训练模型进行重复迭代生成,直至生成出终止符,停止生成,获得条件分子;在将每一个smiles分子表达式和对应的所述属性值按照设定的形式进行组合,构建成新分子的过程中,所述设定的形式为:“属性名称属性值|smiles”;在将所述新分子的条件属性值进行重新编码的过程中,所述新分子的条件属性值为“属性名称属性值|”,将所述新分子的条件属性值中的“属性名称”和“|”单独编码为token标志;将所述新分子的条件属性值中的属性值按照“_A_B”的格式进行编码,其中,A为数字,B为数字A所在小数点位数;在对所述预训练模型进行训练的过程中,将所述新分子进行拆分,所述新分子的“属性名称属性值|”部分定义为条件部分,所述新分子的smiles分子表达式定义为分子部分;分别对所述新分子的条件部分token标志和分子部分token标志进行编码,并将条件部分信息附加到分子部分信息上,获得编码矩阵;将所述编码矩阵输入到所述预训练模型中,输出分子编码。
全文数据:
权利要求:
百度查询: 烟台国工智能科技有限公司 一种基于属性值的条件分子生成方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。