人类表型标准用语提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明提供了一种基于熵的人类表型标准用语的提取方法，首先对电子病历进行分析提取获得疾病特征字符串，将提取出的疾病特征字符串与人类表型标准用语库中的记录进行对齐，在对齐之后进行块划分操作得到块划分文件，然后根据块划分文件进行熵计算获得疾病特征字符串与人类表型标准用语库中每个记录的相似度，最后根据最高相似度提取出相对应的人类表型标准用语。本发明的方法可以获得最大匹配长度的字符串，经过试验证实，可以显著提高提取的准确率。

主权项：1.一种人类表型标准用语的提取方法，包括如下步骤：1对电子病历数据进行分析提取，获得疾病特征字符串；2将疾病特征字符串与人类表型标准用语库中的每个记录进行字符串匹配，标记出疾病特征字符串与人类表型标准用语库中每个记录的匹配关系，生成对齐文件；3对生成的对齐文件进行块划分，得到块划分文件；4根据块划分文件进行熵计算，获得疾病特征字符串与人类表型标准用语库中每个记录的相似度，根据最高相似度提取对应的人类表型标准用语；其中，所述步骤2中所述生成对齐文件的步骤包括：首先，标记出在疾病特征字符串和人类表型标准用语库中每个记录的匹配情况，在标记出所有的匹配关系之后，在匹配关系的集合中，通过一定的规则找出对齐，所述规则为：每一个匹配都对应着疾病特征字符串与人类表型标准用语库中的记录的一条连线；对于每个记录，选取交叉线最少的一组匹配关系，作为该记录与疾病特征字符串的对齐；步骤3中所述块划分的方法是将对齐文件划分为块，要求每个块内的两个字符串中匹配上的词在疾病特征字符串内的位置是连续的，并且映射到人类表型标准用语库中的记录上的位置也是连续的，并且每个块应为最大连续的字符串匹配，从而得到块划分文件；步骤4中所述熵计算包括：根据块划分文件的分块信息计算熵，对熵进行归一化，结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中每个记录的相似度；根据块划分文件的分块信息计算熵的公式为：其中，li代表第i个块的长度，即词的个数；c代表块的个数；L代表所有匹配上的词的个数；结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中每个记录的相似度的计算方法包括：步骤A：用F度量值评价疾病特征字符串和人类表型标准用语库中每个记录的一致性，计算公式为：其中，β为精确率分配的权重，0﹤β﹤1，precision是精确率，recall是召回率；步骤B：将F度量值引入entropy中，通过结合归一化的熵和F度量值得到疾病特征字符串与人类表型标准用语库中的每个记录的相似度Sim,计算公式为：Sim＝e-H×F-score。

全文数据：

权利要求：

百度查询：苏州市爱生生物技术有限公司人类表型标准用语提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：3,7-二甲基黄嘌呤的制备方法

下一篇：基于大模型的电力电缆故障预警系统及方法

相关技术

3,7-二甲基黄嘌呤的制备方法

基于大模型的电力电缆故障预警系统及方法

基于心脑耦合分析的心理压力评估方法及系统

承载装置以及托举系统

一种能够供氧的移动式隧道保障舱

1200nm窄线宽激光治疗数据处理方法及系统

视频编码中的子块编码推断

一种平面距离测量机构

一种药物球囊扩张导管和介入式医疗器械

一种用于半空作业的铝合金桥架打孔装置及打孔方法

一种应用于火电厂数据跨区同步的通讯系统及通讯方法

一种破碎设备及用于中药饮片加工的破碎方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

人类表型标准用语提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务