Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜重庆理工大学李波获国家专利权

恭喜重庆理工大学李波获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜重庆理工大学申请的专利基于语义信息增强的汉字语句分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115203422B

龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211049581.9,技术领域涉及:G06F16/353;该发明授权基于语义信息增强的汉字语句分类方法是由李波;黄焱鑫设计研发完成,并于2022-08-30向国家知识产权局提交的专利申请。

基于语义信息增强的汉字语句分类方法在说明书摘要公布了:本发明具体涉及基于语义信息增强的汉字语句分类方法,包括:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练时:首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签并融合得到总体预测分类标签,以优化分类模型的模型参数。本发明能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰。

本发明授权基于语义信息增强的汉字语句分类方法在权利要求书中公布了:1.基于语义信息增强的汉字语句分类方法,其特征在于,包括:S1:获取待分类的汉字语句;S2:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练分类模型时,首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取简体和繁体汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而结合分类表示和上下文表示计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签,进而融合简体和繁体的预测分类标签得到总体预测分类标签,并基于总体预测分类标签优化分类模型的模型参数;步骤S2中,通过如下步骤构建区分度字典:S201:对于训练数据集中的每个汉字语句:首先获取对应汉字语句中每个部首的出现次数;然后按出现次数从高到低的顺序依次选取部首,并计算各个部首对应的汉字与对应汉字语句的余弦相似度;最后生成各个部首的汉字相似度集;S202:融合各个汉字语句中对应部首的汉字相似度集构成对应部首的相似度矩阵;然后计算对应部首的相似度矩阵中对应汉字所有余弦相似度的方差作为该汉字的区分度;S203:对于每个汉字语句:对各个部首对应的各个汉字的区分度进行降序排列,得到各个部首的区分度降序列表,进而整合各个部首的区分度降序列表得到该汉字语句的区分度降序列表;S204:将各个汉字语句的区分度降序列表进行累加,并对各个部首对应的各个汉字的区分度进行降序排列,得到各个部首的区分度字典;步骤S204中,通过如下公式表示区分度字典: LRni,1=CRni,1; 式中:LR表示部首R的区分度字典;n表示训练数据集中汉字语句的数量;LRi表示第i个汉字语句中部首R的区分度降序列表,区分度降序列表是一个两列的数组,第一列是汉字,第二列是对应汉字的区分度;LRni,1表示区分度降序列表的第i行第一列,LRni,2表示区分度降序列表的第i行第二列;CRni表示第n个汉字语句中第i个汉字与该汉字语句的余弦相似度;CRni,j表示第n个汉字语句中第i个汉字与汉字集合setR中第j个汉字的余弦相似度;m表示汉字集合setR中的汉字数量;通过如下步骤生成文本最终表示:S211:基于区分度字典确定汉字语句中的关键字,并生成关键字矩阵;S212:将汉字语句输入至预训练BERT模型,输出汉字语句的分类表示和文本表示;然后将文本表示输入至BiLSTM模型,生成汉字语句的上下文表示;步骤S212中,通过如下公式提取分类表示和文本表示:Cs,Es=BERTSentence;式中:Cs表示分类表示;Es表示文本表示;Sentence表示汉字语句;通过如下公式计算上下文表示:Yi={y1,y2,...,ym}; 式中:Yi表示第i个汉字语句的上下文表示;yi表示汉字语句中的第i个字;si表示第i个汉字语句通过LSTM的输入门和遗忘门获得的上文遗留信息;表示向前计算;表示向后计算;表示将汉字语句的第i-1个汉字与对应的上文遗留信息si进行向后计算得到的第i个汉字的信息;S213:将关键字矩阵作为注意力模块的key和value,然后分别将汉字语句的分类表示和上下文表示作为注意力模块的query;S214:将query中的各个汉字向量与关键字矩阵中的关键字一一对应;然后计算各个关键字的注意力权重,进而结合分类表示和上下文表示分别计算对应的分类注意力表示和上下文注意力表示;S215:将汉字语句的分类注意力表示、上下文注意力表示、分类表示和上下文表示进行拼接,得到汉字语句的文本最终表示;S3:基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆理工大学,其通讯地址为:400054 重庆市巴南区李家沱红光大道69号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。