一种基于语言模型的医疗实体零样本分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华东理工大学

摘要：本发明提出了一个新的基于语言模型的医疗实体零样本分类方法。该方法将实体分类问题通过构造自然语言的query转换为一种完型填空问题；之后利用预训练的医疗bert模型求出上述完型填空问题的答案，实现零样本的分类。该方法从到预训练医疗bert模型开始，使用医疗预训练语料训练bert模型得到预训练医疗bert模型。然后根据待识别的实体类别构造相应的完型填空模板，对实体分类问题测试集中每个句子中的每个实体利用所述构造的完型填空模板，生成完型填空问题。将所述完型填空问题使用预训练医疗bert模型预测每个完形填空问题的概率值，取其中概率值最大的类别作为实体对应的类别。本方法在CCKS2019数据集Precision达到85.60，Recall达到85.60，F‑score达到85.60。

主权项：1.一种基于语言模型的医疗实体零样本分类方法，其特征在于，包括如下步骤：S1：使用预训练语料训练bert模型得到预训练医疗bert模型；S2：根据待识别实体的类别构造相应的完型填空的模板；所述步骤S2中，构造待识别实体的类别的完型填空的模板过程包括如下步骤：S21：构造待识别实体的类别列表list；S22：定义完型填空问题：PW|Smask其中W表示的是一个分类类别，Smask表示的是一段带MASK位的文本，PW|Smask表示把W填入Smask中MASK位置的概率；S23：对类别列表list中的每一个类别分别构造带上下文和不带上下文的完型填空模板，完型填空模板包含待识别实体的一段文本[text]，待识别的实体[entity]以及待识别实体的类别[type]；其中，带上下文关系的模板表示为：S1text，entity，type＝[text]，上文中的[entity]是一种[mask]，W1type＝[type]不带上下文的模板表示为：S2entity，type＝[entity]是一种[mask]，W2type＝[type]；S3：对实体分类问题测试集中每个句子中的每个实体利用所述构造的完型填空模板，生成完型填空问题；所述步骤S3包括如下步骤：S31：把实体分类问题测试集中的每个句子作为text，然后标记句子中的所有实体以及该实体在句子中位置，得到训练和测试的原始数据，其格式为：{text:sometext，entities[type，startpos，endpos，entity]}其中text表示的是一个句子，type表示的是实体的类别，startpos表示该实体在句子中的开始位置，endpos表示该实体在句子中的结束位置，entity表示待识别的实体，其中，一个句子中可能包含多个实体；S32：对于S31数据中的每个句子text中的每个实体使用所述构造的完型填空模板生成完型填空问题，其中，每一个实体要生成N个完型填空问题，N为事先构造的实体的类别的数量；S4：将所述完型填空问题使用预训练医疗bert模型预测每个完型填空问题的概率值，取其中概率值最大的类别作为实体对应的类别。

全文数据：

权利要求：

百度查询：华东理工大学一种基于语言模型的医疗实体零样本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种掺烧煤泥的循环流化床锅炉前墙水冷壁管结构

下一篇：双向直流直流转换电路、车载充电机、系统及交通工具

相关技术

一种掺烧煤泥的循环流化床锅炉前墙水冷壁管结构

双向直流直流转换电路、车载充电机、系统及交通工具

一种真空发生设备

一种监控球形玻璃罩清洗装置及监控系统

一种基于鸿蒙系统实现对讲模块跨层通信方法及系统

一种海洋沉积物检测取样装置及其方法

一种SSD盘的亚健康管理与故障预测方法

显示器下方的光学生物特征成像装置中的传感器位移补偿

一种COB-LED模组流水线用的除锡装置

卷铁心及其制造方法

一种生物基多孔酸性催化剂及其制备方法与应用

一种用于通信声呐的全时间取样方法及系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于语言模型的医疗实体零样本分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务