买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华东理工大学
摘要:本发明公开了一种基于多蕴含临床术语重组的术语标准化方法、系统,涉及临床术语标准化领域,方法包括:根据目标待标准化术语类型,确定术语组成成分类型集、标准术语库;利用LLM,自动化地拆分识别多蕴含术语并进行数据清洗,得到结构化的组成成分序列;利用基于规则的术语重组算法,得到一多个原子术语,解决临床术语标准化存在的多蕴含问题;利用LLM,自动化标注单蕴含术语标准化任务训练集数据,解决人工标注费时费力的问题;利用对比学习和在线负采样策略,基于向量搜索算法确定每个原子术语各自召回得到的候选标准术语,提升术语标准化结果的召回率;利用基于知识引导的精排模型,确定最终的标准术语答案,提升术语标准化结果的准确率。
主权项:1.一种基于多蕴含临床术语重组的术语标准化方法,包括:根据目标待标准化术语类型,确定术语组成成分类型集、标准术语库;所述待标准化术语类型包括临床疾病诊断、手术术式;所述术语组成成分类型包括发病部位、发病内容、操作内容等;所述标准术语库包括ICD10、ICD9等;利用大型语言模型LLM,自动化地拆分识别多蕴含术语,得到该术语的组成成分表;所述组成成分表包括以较细粒度拆分的得到的术语组成成分原词,各组成成分原词在当前术语中对应的成分类型,各组成成分原词的领域内同义词;对组成成分表进行数据清洗,得到结构化的组成成分序列;所述数据清洗包括残缺数据清洗、多余数据清洗、错误数据清洗、顺序调整;利用基于规则的术语重组算法,根据所述结构化的组成成分序列,确定重组后的一多个原子术语;所述规则根据医学专家意见,人工手写确定;利用LLM,根据所述重组后的一多个原子术语和标准术语库,自动化标注单蕴含术语标准化任务训练集数据;利用基于对比学习框架和在线负采样策略的召回算法,根据所述单蕴含术语标准化任务训练集数据和标准术语库,训练召回模型,确定最终召回模型权重;利用向量搜索算法,根据所述召回模型权重、重组后的一多个原子术语和标准术语库,确定每个原子术语各自召回得到的topk个候选标准术语;所述候选标准术语来自确定的标准术语库;利用基于知识引导的精排模型,根据所述重组后的一多个原子术语、结构化的组成成分序列和候选标准术语,确定每个原子术语对应的标准术语答案;所述标准术语答案来自候选标准术语;根据所述每个原子术语对应的标准术语答案,确定多蕴含术语对应的一多个标准术语。
全文数据:
权利要求:
百度查询: 华东理工大学 一种基于多蕴含临床术语重组的术语标准化方法、系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。