首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本处理方法、装置、设备以及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:腾讯科技(深圳)有限公司

摘要:本申请实施例公开了一种文本处理方法、装置、设备以及存储介质,该方法适用于人工智能、大数据以及自然语言处理等领域。该方法包括:获取待评估文本集合,以及多个文本评估特征,待评估文本集合包括多个待评估文本;对多个待评估文本进行分类,得到多个文本集合;基于每个文本集合所包含的待评估文本的数量,确定多个文本集合中的目标文本集合;对于目标文本集合中的每个待评估文本,基于该待评估文本与多个文本评估特征的匹配度,确定该待评估文本的评估结果。采用本申请实施例,可提高文本处理效率,可准确对待评估文本进行评估,适用性高。

主权项:1.一种文本处理方法,其特征在于,所述方法包括:获取待评估文本集合,以及用于进行文本评估的多个文本评估特征,所述待评估文本集合包括多个待评估文本;对于每一待评估文本,对该待评估文本中的各词进行编码得到各词的编码特征;基于各词的编码特征确定各词的词向量;基于各词的词向量,确定该待评估文本的文本特征;基于各所述待评估文本的文本特征,对所述多个待评估文本的文本特征进行聚类,基于聚类结果得到多个文本集合;基于每个所述文本集合所包含的待评估文本的数量,确定所述多个文本集合中的目标文本集合;对于所述目标文本集合中的每个待评估文本,基于该待评估文本与所述多个文本评估特征的匹配度,确定该待评估文本的评估结果;其中,对于每一待评估文本,所述基于各词的编码特征确定各词的词向量是通过向量提取模型实现的;所述向量提取模型是通过以下方式训练得到的:获取训练数据集,所述训练数据集包括多个训练文本;对各所述训练文本中的各词进行编码得到各所述训练文本中各词的编码特征;将各所述训练文本中的各词的编码特征输入神经网络模型,对于每一词,通过所述神经网络模型,基于与该词相邻的词的编码特征,确定所述相邻的词的词向量;基于所述相邻的词的词向量确定该词对应的词向量分布,基于所述词向量分布确定该词对应的预测词;基于各所述训练文本中各词和相对应的预测词,确定训练损失值,根据所述训练损失值和所述训练数据集对所述神经网络模型进行迭代训练,直至所述训练损失值满足预设的训练结束条件,将训练结束后的模型确定为所述向量提取模型。

全文数据:

权利要求:

百度查询: 腾讯科技(深圳)有限公司 文本处理方法、装置、设备以及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术