Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于一致性度量的文本隐喻检测方法、装置、电子设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院新疆理化技术研究所

摘要:本发明公开了一种基于一致性度量的文本隐喻检测方法、装置、电子设备及存储介质,该方法将预处理后文本数据分别输入至待检测文本编码器和目标词基本用法编码器;从待检测文本编码器中提取目标词语境特征和文本语境特征、目标词基本用法编码器中提取目标词基本用法特征和词性特征;通过选择偏好违背程序、隐喻识别程序和语义对比程序分别度量目标词语境特征和文本语境特征一致性、目标词语境特征和目标词基本用法特征一致性、文本语境特征和目标词基本用法特征一致性;最后将一致性度量结果与POS向量拼接输入至分类器以检测隐喻;该发明通过一致性度量及增加语义对比程序模块,更加有效利用隐喻特征信息,提高了文本隐喻检测准确率。

主权项:1.一种基于一致性度量的文本隐喻检测方法,其特征在于,该方法是由文本预处理、编码器编码、文本特征提取、特征一致性度量、词性拼接及分类器分类以检测隐喻,具体操作按以下步骤进行:a、文本预处理:将待检测文本语句及目标词基本用法文本进行预处理,包括:文本清洗中的剔除停用词、数字无关信息、文本大小写转换,去除超文本标记语言标签以保留纯文本信息、通过正则表达式处理换行符、制表符特殊字符、删除重复字符以减少噪音,并进行词干提取或词形还原,使用自然语言处理工具包为文本词汇添加词性标记、使用拼写检查工具处理拼写错误,根据任务需求对文本进行截断或填充,以确保模型在处理文本时具有一定的规范和统一性;b、编码器编码:使用预训练语言模型DeBERTa作为待检测文本编码器和目标词基本用法编码器,分别对预处理后的待检测文本及目标词基本用法文本进行编码,获取待检测文本语句及目标词基本用法文本向量表示;c、文本特征提取:从编码后的待检测文本向量表示中使用加权平均方式提取出目标词语境特征和文本语境特征,从编码后的目标词基本用法文本向量表示中提取出目标词基本用法特征和目标词词性特征;d、特征一致性度量:通过选择偏好违背程序计算目标词语境特征和文本语境特征的一致性,判断目标词语义与其上下文语义一致性来检测隐喻;通过隐喻识别程序计算目标词语境特征和目标词基本用法特征的一致性,判断目标词的基本用法和目标词在当前语境中含义的一致性来检测隐喻;通过语义对比程序计算文本语境特征和目标词基本用法特征的一致性,比较目标语句语义与目标词的基本用法的一致性来检测隐喻;e、词性拼接:将步骤d中通过选择偏好违背程序、隐喻识别程序和语义对比程序计算的一致性特征与步骤c中提取的目标词词性特征进行串联拼接,得到更丰富的特征表示;f、分类器分类:使用分类器对步骤e拼接后特征表示进行分类,判断该文本是否包含隐喻表达,以检测隐喻。

全文数据:

权利要求:

百度查询: 中国科学院新疆理化技术研究所 基于一致性度量的文本隐喻检测方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。