首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于文献PDF表格的临床症状和实验室指标的抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国中医科学院中医临床基础医学研究所

摘要:本发明属于计算机图像处理和自然语言处理技术领域,具体涉及了基于文献PDF表格的临床症状和实验室指标的抽取方法,旨在解决现有方法并没有考虑到临床症状和实验室检查指标表格的特殊性的问题。本发明包括:对筛选的医学文献通过特定主题进行筛选并进行校验,校验后作为待抽取文献;获取待抽取文献中的表格位置并对表格文本进行提取,对每一行的第一个单元行和每一列的表头进行临床症状和实验室指标的筛选;确定标准术语并生成高密度嵌入向量,将临床症状和实验室指标映射到标准术语中,并将数据值转化为标准单位并校验,得到标准的临床症状和实验室指标信息。本发明能够保证抽取结果的准确性,能帮助医学从业者准确获取疾病的研究数据。

主权项:1.一种基于文献PDF表格的临床症状和实验室指标的抽取方法,其特征在于,该方法包括:步骤S1,基于关键词筛选医学文献并进行文本格式和表格格式的转换;对转换后的医学文献通过特定主题进行筛选,得到筛选结果并进行校验,将校验后的所述筛选结果作为待抽取文献;步骤S2,获取所述待抽取文献中的表格位置并对表格文本进行提取,提取后进行规范化处理,并对规范化处理后的表格中,每一行的第一个单元行和每一列的表头进行临床症状和实验室指标的筛选,得到筛选后的表格文件;所述筛选后的表格文件,其具体获取方法为:步骤S201,基于图像文本关系增强图卷积网络模型对所述待抽取文献的表格部分进行一次定位,再根据处理表格的深度学习模型对所述待抽取文献的表格部分进行二次定位,将两次定位重叠的部分作为表格位置并裁剪;基于图像文本关系增强图卷积网络模型对所述待抽取文献的表格部分进行一次定位,其具体方法为:步骤S2011,对待抽取文献的表格的标题文本和PDF页对应的图像分别输入到文本识别模型和图像识别模型,得到文本表示和视觉特征;将所述视觉特征投影至与文本特征相同空间,作为图像表示;步骤S2012,预构建表格图像的数据集,基于预训练图像标题模型获得数据集中每张表格图像的标题描述,并输入至BERT编码器中,获得上下文表示;步骤S2013,计算文本表示HS与数据集中其他表格图像的标题描述的上下文表示TP之间的cos相似度,TPa,得到与文本表示HS相似的Top-K图像;步骤S2014,以图像表示或文本表示为结点,以输入句子S的文本表示或图像I的图像表示分别与图像的标题描述的余弦相似度为边,构建文本表示或图像表示与标题描述之间的关系图,并在所述关系图中,基于每个文本表示的结点或每个图像表示的结点与其相邻的Top-K图像节点进行卷积,得到融合了Top-K图像节点的文本表示和图像表示;步骤S2015,分别对融合了Top-K图像节点的文本表示和图像表示进行增强,并进行交互,得到词感知视觉表征;步骤S2016,对所述词感知视觉表征使用条件随机场生成标签序列,并将所述标签序列作为条件概率进行评分,将评分满足预设标准的所述词感知视觉表征在所述待抽取文献中的位置作为第一次定位得到的位置;步骤S202,提取裁剪后的表格文本,并转化为Excel表格文件格式;步骤S203,将Excel表格文件的内容进行规范化处理,得到格式规范的表格文件;其中,所述规范化处理包括规范分组名称、删除空白列、调整行列粘连;步骤S204,将格式规范的表格文件中的每一行的第一个单元作为候选的实验室指标和临床症状名称,使用训练好的二分类器,判断第一个单元是否为实验室指标或临床症状的名称,将符合的第一个单元所在的行保留,得到行过滤后的表格文件;步骤S205,基于预设的Excel表头关键字字典,在行过滤后的表格文件中进行匹配,保留符合要求的列,得到列过滤后的表格文件,作为筛选后的表格文件;步骤S3,确定临床症状和实验室指标的标准术语,并生成高密度嵌入向量,将筛选后的表格文件中的临床症状和实验室指标映射到所述标准术语中,并将筛选后的表格文件中的数据值转化为标准单位,再对转化后的数据值进行校验,得到标准的临床症状和实验室指标信息;所述标准的临床症状和实验室指标信息,其具体获取方法为:步骤S301,获取常见临床症状和实验室指标,并生成标准术语表;获取实验室指标的标准单位,建立标准单位映射表;其中,所述标准术语表术语名称、标准单位和取值范围;步骤S302,基于预训练模型得到所述标准术语表中各标准术语对应的临床症状和实验室检查指标向量嵌入,并进行均值池化操作运算,得到每个标准术语的高密度嵌入编码;其中,所述预训练模型包括all-MiniLM-L6-v2模型;步骤S303,将所述筛选后的表格文件中的每一个临床症状和实验室指标与所述每个标准术语的高密度嵌入编码进行相似度计算,将相似度最大的标准术语替换至所述筛选后的表格文件中,得到具有标准术语的表格文件;步骤S304,提取具有标准术语的表格文件中各标准术语对应的临床症状和实验室指标所使用的单位和数据值,将数据值映射到标准单位得到具有标准术语和标准单位的表格文件;步骤S305,对具有标准术语和标准单位的表格文件中的分组信息、分组数量、分组年龄、临床症状和实验室指标的数值进行自动校验,将校验错误的数据,输出到文件,进行人工检查和修改,并再次进行自动校验,直到所有数值通过校验,得到标准的临床症状和实验室指标信息。

全文数据:

权利要求:

百度查询: 中国中医科学院中医临床基础医学研究所 基于文献PDF表格的临床症状和实验室指标的抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术