首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种客服热点事件发现方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:科大国创云网科技有限公司

摘要:本发明公开了一种客服热点事件发现方法及系统,属于自然语言处理技术领域,包括以下步骤:S1:语义表征;S2:事件发现;S3:事件类别预测。本发明通过调整字词权重的方式增强语义表征,基于K‑Means算法实现热点事件发现,优化运营商客服领域热点事件发现的准确率,在运营商客服领域数据事件聚类发现的实验中,本方法明显优于其他已有的层次和密度聚类算法,准确率提升了13.83%。

主权项:1.一种客服热点事件发现方法,其特征在于,包括以下步骤:S1:语义表征在通用词库的基础上进行客服领域新词发现,然后计算客服文本动态句向量,并对语义表征进行压缩;在所述步骤S1中,进行新词发现的具体过程如下:S101:采用Word2vec方法训练客服语料,生成词汇表作为客服行业基础词库;S102:客服领域文本分词后,若文本分词后的词不在基础词库中,进行词频统计;S103:设置新词发现阈值,将超过阈值的词语记录下来作为候选业务词;S104:候选业务词与通用词库相融合,建立运营商客服领域业务词库;在所述步骤S1中,客服文本动态句向量计算过程具体如下:S201:对于客服文本序列s,采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除,只保留运营商客服领域业务词,因此序列更新为s′={c1,…,ci,…,cN},其中ci表示序列s′中的第i个词汇,N表示序列s′的文本长度;S202:基于Word2vec方法获得序列s′中每一个词汇的初始向量,es′={e1,…,ei,…,eN};S203:在传统TF-IDF算法的基础上新增词长权重,权重信息具体计算公式为: 其中,为序列s′中第i个词汇的权重信息,lenci为ci的长度,m为词汇ci在该文本中出现的频数,T为该文本中的总词汇数,H为总文本数,h为含有词汇ci的文本数;S204:应用序列s′每一个词汇的向量es′={e1,…,ei,…,eN}与其对应词汇权重信息相结合的方式,动态计算句向量,生成文本的句向量空间,完成客服文本向量化,具体计算公式为: 其次,Vs为文本的句向量表示,为词汇ci的权重信息,ei为词汇ci的词向量;在所述步骤S1中,对语义表征进行压缩的具体过程如下:S211:将步骤S204中生成的句向量进行归一化;S212:采用PCA降维的方式将原始句向量的维度降低到指定维度,具体计算公式为: 其中,Vs′为语义表征压缩后的句向量,Xi为原始句向量中第i维的数值,Xmax、Xmin分别为原始句向量中最大值和最小值,F是PCA降维函数,d是指定维度;S2:事件发现基于客服文本语义表征向量,采用K-Means算法对不同客服场景话务进行聚类,生成样本类别,计算类别的热词组合,形成类别标题,实现客服文本事件发现;S3:事件类别预测构造客服文本事件类型预测训练样本,训练分类模型,通过训练好的分类模型预测新文本类别,完成事件入库。

全文数据:

权利要求:

百度查询: 科大国创云网科技有限公司 一种客服热点事件发现方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。