买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河北工业大学
摘要:本发明为涉及一种基于TRIZ发明原理的多特征融合中文专利文本分类方法,该方法针对中文专利,使用ALBERT模型、BiATextCNN模型、BiGRU模型和Self‑Attention机制来获取含有局部关键字符信息特征的词向量和上下文深层语义信息特征句子向量,融合得到多特征表示的文本向量表示,最后使用Softmax分类器根据TRIZ发明原理对专利分类。该方法不仅能够应对专利文本的结构、句子语义复杂等难点,提取多层次特征信息,提升了专利文本分类效果,还打破了不同领域创新的隔离性,缩短了创新设计人员发明进程。
主权项:1.一种基于TRIZ发明原理的多特征融合中文专利文本分类方法,其特征在于,该方法包括如下步骤:S1:准备原始中文专利文本数据,进行数据预处理后作为中文专利文本分类数据集,将数据集分为训练集、验证集和测试集,用于TRIZ_MFPM模型的训练;S2:构建TRIZ_MFPM模型,包括ALBERT动态预训练模型、改进的双向卷积神经网络模型BiATextCNN、双向门控循环神经网络模型BiGRU和自注意力机制模块Self-Attention;S3:将S1中处理得到的数据集中的中文专利文本输入到ALBERT模型,输出动态的词级别向量和句子级别向量;S4:将S3输出的词级别向量输入到BiATextCNN模型进行特征提取,提取含有局部关键字符信息特征;S5:将S3输出的句子级别向量输入到BiGRU模型进行特征提取,捕捉含有上下文深层语义信息特征,并将其输出结果输入到Self-Attention机制中,使模型着重关注专利文本长序列中的相关性,提升捕捉上下文语义能力,更好地提取句子语义特征;S6:采取并行拼接的方式将S4输出的含有局部关键字符特征的词级别向量和S5输出的含有全局上下文句子语义特征的句子级别向量进行拼接融合,得到多层次的中文专利文本向量表示;S7:使用Softmax分类器计算中文专利文本所属发明原理类别的概率分布,经过多轮训练得到以40条TRIZ发明原理为分类标准的TRIZ_MFPM模型;S8:将需要分类的专利文本进行处理后输入到S7中训练好的TRIZ_MFPM模型完成专利分类任务。
全文数据:
权利要求:
百度查询: 河北工业大学 基于TRIZ发明原理的多特征融合中文专利文本分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。