买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州臣信科技有限公司
摘要:本发明公开了一种应用于电商客服数智化管理系统的数据聚合方法,其属于大数据资源服务的技术领域,其利用结巴分词对评论的文本内容进行分词处理,并使用word2vec模型得到反映该评论文本特征的文本向量;再采用SVM分类算法,得到文本是否为数学公式或特定格式的数据的判断;然后,对第一分类器中非数学公式、非特定格式的评论文本数据使用第二分类器进行分类。先对评论的文本进行语种判断,如果是中文,则使用中文的特征提取方式,如果为英文,则使用英文的特征提取方式;最后,使用SVM模型将特征提取后的数据进行分类处理,从而得到该评论文本是否具有价值性的最终判断结果。本发明解决了如何对电商平台进行数据聚合以识别数据的潜在价值的技术问题。
主权项:1.一种应用于电商客服数智化管理系统的数据聚合方法,其特征在于,其包括如下步骤:S1:首先,采用以SVM算法作为基础分类器算法的AdaBoost算法,通过迭代训练,得到第一分类器及第二分类器;S2:利用第一分类器对评论文本数据进行处理,即将评论样本数据中的所有字母统一变为小写字母,再采用结巴分词处理对评论文本进行分词处理,得到每个评论文本的所有词集合Wn;S3:利用第一分类器对评论文本数据进行特征提取,即利用word2vec模型得到所有词集合Wn中每个词语所对应的词向量Vn,再将评论文本中所有的词的词向量Vn加和后取平均得到文本向量Vt,计算公式如式为:;S4:利用第一分类器中的第一SVM分类算法对所得到的文本向量Vt进行价值性分类处理,分别得到有价值评论文本及无价值评论文本;S5:利用第二分类器对步骤S4所得的有价值评论文本与无价值评论文本按预设的权重值进行处理,再将样本数据按语种区分为中文文本与英文文本;S6:对于中文文本,首先,对该文本数据进行分词,并同时获取每个词语对应的词性分析;再把词性分为六类,对每一类词性分别进行次数统计;统计完成后,根据文本的六类词性所含词的总数计算出各类词的占比,形成的向量后作为文本的向量,再使用第二SVM分类算法进行分类;最后,判断得到有价值评论文本与无价值评论文本;S7:对于英文文本,根据预先整理好的覆盖预设量的英文单词的词表,利用空格切词对该英文文本进行分词处理,经过分词处理后的文本可表示为Wn,然后,逐个比较Wi是否在预先整理好的单词词表中,并得到该英文文本的词语在所述的单词词表中的占比RW;英文单词占比计算完成后,再计算该英文文本中字母的占比RC,即文本中字母的个数与文本的长度的比值;两个占比计算完成后,利用RW与RC组成的向量用于表征该英文文本,使用第三SVM分类算法对该英文文本进行分类;最后,判断得到有价值评论文本与无价值评论文本。
全文数据:
权利要求:
百度查询: 广州臣信科技有限公司 应用于电商客服数智化管理系统的数据聚合方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。