买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供了一种基于熵的人类表型标准用语的提取方法,首先对电子病历进行分析提取获得疾病特征字符串,将提取出的疾病特征字符串与人类表型标准用语库中的记录进行对齐,在对齐之后进行块划分操作得到块划分文件,然后根据块划分文件进行熵计算获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,最后根据最高相似度提取出相对应的人类表型标准用语。本发明的方法可以获得最大匹配长度的字符串,经过试验证实,可以显著提高提取的准确率。
主权项:1.一种人类表型标准用语的提取方法,包括如下步骤:1对电子病历数据进行分析提取,获得疾病特征字符串;2将疾病特征字符串与人类表型标准用语库中的每个记录进行字符串匹配,标记出疾病特征字符串与人类表型标准用语库中每个记录的匹配关系,生成对齐文件;3对生成的对齐文件进行块划分,得到块划分文件;4根据块划分文件进行熵计算,获得疾病特征字符串与人类表型标准用语库中每个记录的相似度,根据最高相似度提取对应的人类表型标准用语;其中,所述步骤2中所述生成对齐文件的步骤包括:首先,标记出在疾病特征字符串和人类表型标准用语库中每个记录的匹配情况,在标记出所有的匹配关系之后,在匹配关系的集合中,通过一定的规则找出对齐,所述规则为:每一个匹配都对应着疾病特征字符串与人类表型标准用语库中的记录的一条连线;对于每个记录,选取交叉线最少的一组匹配关系,作为该记录与疾病特征字符串的对齐;步骤3中所述块划分的方法是将对齐文件划分为块,要求每个块内的两个字符串中匹配上的词在疾病特征字符串内的位置是连续的,并且映射到人类表型标准用语库中的记录上的位置也是连续的,并且每个块应为最大连续的字符串匹配,从而得到块划分文件;步骤4中所述熵计算包括:根据块划分文件的分块信息计算熵,对熵进行归一化,结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中每个记录的相似度;根据块划分文件的分块信息计算熵的公式为:其中,li代表第i个块的长度,即词的个数;c代表块的个数;L代表所有匹配上的词的个数;结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中每个记录的相似度的计算方法包括:步骤A:用F度量值评价疾病特征字符串和人类表型标准用语库中每个记录的一致性,计算公式为:其中,β为精确率分配的权重,0﹤β﹤1,precision是精确率,recall是召回率;步骤B:将F度量值引入entropy中,通过结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中的每个记录的相似度Sim,计算公式为:Sim=e-H×F-score。
全文数据:
权利要求:
百度查询: 苏州市爱生生物技术有限公司 人类表型标准用语提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。