首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于词语相似度的中文短文本分类方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东工业大学

摘要:本发明公开了一种基于词语相似度的中文短文本分类方法和系统,可应用于判断文本事件类型及对文本进行分类。包括以下步骤:利用预设的事件类型集对文本进行分词,获得事件触发词和所属事件类型标签的向量形式。对得到的分词文本进行文本特征提取得到文本语义向量。对获得的事件触发词和预设的事件类型集使用自然语言处理模型进行向量化,获得各自的词向量,利用所述词向量计算获得事件触发词与事件类型集之间的相似度向量。将文本语义向量与相似度向量融合得到总特征,并输入到文本分类器中对文本进行分类,输出分类结果并评估准确率。本发明引入了文本语义特征和词语相似度融合的概念,充分挖掘文本的特征,从而提高了文本分类的精确度和效率。

主权项:1.一种基于词语相似度的中文短文本分类方法,其特征在于,包括如下步骤:S1:利用预设的事件类型集,对待分类文本进行分词,清洗数据,提取标签,获得事件触发词和文本所属事件类型标签的预设向量形式;S2:对S1得到的分词文本,进行文本特征提取,得到文本语义向量;S3:对S1获得的事件触发词和预设的事件类型集,使用预训练过的自然语言处理模型分别进行向量化,获得各自的词向量,利用所述词向量计算获得事件触发词与事件类型集之间的相似度向量;S4:将S2得到的文本语义向量与S3得到的相似度向量进行融合,得到最终用于分类的总特征;S5:将总特征输入文本分类器中,对待分类文本进行分类,输出分类结果,并评估分类准确率。

全文数据:

权利要求:

百度查询: 广东工业大学 一种基于词语相似度的中文短文本分类方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。