买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:拓尔思信息技术股份有限公司
摘要:本发明涉及海关数据处理技术领域,提出了一种基于提示学习的海关税收风险知识抽取方法,建立海关风险知识抽取的数据源:输入通用预训练命名实体识别模型抽取企业实体名称,并利用依存句法优化实体命名结果,得到候选名称;将候选名称放入提示学习语言模型进行验证,输出概率最高的企业实体名称;再进行风险评价提取:基于预训练语言模型的提示学习来对报道正负面做文本分类预测;最后将提取出企业实体名称、风险评价信息进行特征融合,并录入海关报关单数据库。提高实体命名识别的准确性,并解决了对海关风险信息领域的样本信息少,抽取任务准确率低的问题。
主权项:1.一种基于提示学习的海关税收风险知识抽取方法,其特征在于,S1:建立海关风险知识抽取的数据源:所述海关风险知识抽取的数据源由海关业务专家指定的行业新闻网站中的非结构化文本数据;并进行分句处理得到分句文本作为原语句;S2:实体命名识别及依存句法分析:将分句后原语句输入预训练命名实体识别模型抽取企业实体名称,并利用依存句法拓展实体命名结果,得到企业候选实体名称结果集,计算企业候选实体名称结果集中企业候选实体名称成立概率,得到成立概率最高的企业实体名称作为输出结果;S21:实体命名识别:将原语句输入实体命名识别语言模型做初步企业实体识别,得到时间和企业的初步实体识别结果;所述企业的初步实体识别结果包括:标记人名开始、人名中间、组织名开始、组织名中间、非命名实体;S22:依存句法拓展企业初步实体识别结果:利用依存关系分析所述初步实体识别结果的原语句,得到依存句法分析结果;并判断所述初步实体识别结果与其前一个相邻词是否存在依存关系;若存在,则将相邻词纳入所述初步实体识别结果作为新的企业候选实体名称;再判断新的企业候选实体名称与前一个相邻词是否存在依存关系,并将其放入企业候选实体名称结果集,直到不存在依存关系;最终构成企业候选实体名称结果集;S23:计算候选企业实体名称概率:将企业候选实体名称结果集及包含该企业候选实体名称的原语句输入到提示学习语言模型中,得到用mask掩码标注企业候选实体名称的原语句,验证该结果集中每个企业候选实体名称成立的概率1;并利用真实企业名称替换原语句中的企业候选实体名称得到新语句;验证替换后的企业候选实体名称成立的概率2;将两个概率取均值作为该企业候选实体名称成立的概率,选择该结果集中概率最高的企业实体名称作为输出结果;S3:风险评价提取:基于bert-base-chinese预训练语言模型和提示模版对S1所述的分句文本进行语句分类,分类为积极语句和消极语句,并进行风险评价,得到风险评价结果;S4:使用正则筛选出分句文本中出现的设备名称;S5:特征融合:将S2中的所述成立概率最高的企业候选实体名称、S3中企业候选实体名称所属语句的风险评价结果和S4中该语句或同一条新闻文本的设备名称进行特征融合,并录入海关报关单数据库。
全文数据:
权利要求:
百度查询: 拓尔思信息技术股份有限公司 一种基于提示学习的海关税收风险知识抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。