买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川观想科技股份有限公司
摘要:本发明公开了一种基于语义理解和行业学习的需求自动拆分和转换方法,属于自然语言技术领域,包括以下步骤:收集多个行业文本,并进行数据预处理,得到行业文本数据;根据行业文本数据进行需求主题提取,得到需求主题和每个需求主题对应的需求关键词以及需求主题文本;通过需求主题文本进行情感分析,得到需求情感得分;通过需求主题、需求关键词和需求情感得分,进行行业动态分析,实现行业需求的自动拆分和转换。本发明解决了传统方法数据来源单一、未能捕捉情感因素以及行业需求拆分和转换的精度和深度低的问题。
主权项:1.一种基于语义理解和行业学习的需求自动拆分和转换方法,其特征在于,包括以下步骤:S1、收集多个行业文本,并进行数据预处理,得到行业文本数据;S2、根据行业文本数据进行需求主题提取,得到需求主题和每个需求主题对应的需求关键词以及需求主题文本;S3、通过需求主题文本进行情感分析,得到需求情感得分;S4、通过需求主题、需求关键词和需求情感得分,进行行业动态分析,实现行业需求的自动拆分和转换;所述S2的具体步骤为:S21、通过语义理解模型提取行业文本数据的多尺度嵌入表示F;S22、对多尺度嵌入表示F进行降维,得到降维嵌入表示FD;S23、通过HDBSCAN聚类对降维嵌入表示FD进行聚类,得到多个需求主题以及每个需求主题对应的行业文本数据;S24、将每个需求主题对应的行业文本数据组成一个需求主题文本,并根据c-TF-IDF公式计算每个词在每个主题文本中的权重;S25、根据权重将需求主题中的词从大到小进行排序,选择排名前M的词作为每个需求主题的需求关键词;所述S21的具体步骤为:S211、将行业文本数据映射为词嵌入向量Xe,并通过正弦和余弦函数对词嵌入向量进行位置编码,将词嵌入向量Xe和对应的位置编码合并,得到行业文本数据的输入表示Xf;S212、将输入表示Xf通过多层Transformer编码器提取行业文本数据的语义和上下文信息,得到每一层的隐藏状态表示;S213、将不同层次的隐藏状态表示进行拼接,并通过注意力机制调整不同层次的隐藏状态表示的权重,得到行业文本数据的多尺度嵌入表示F;所述S3的具体步骤为:S31、采用语义理解模型,提取需求主题文本的深层次语义信息,得到上下文语义向量;S32、将需求主题文本通过SSWE模型进行学习,得到情感向量;S33、将情感向量和上下文语义向量进行拼接,得到需求主题文本的词向量;S34、将词向量输入到双向长短期记忆网络中对文本序列进行处理,并将处理后的词向量通过自注意力机制进行加权,得到加权词向量S35、将加权词向量输入递归神经网络中进行特征转换,得到情感特征向量FS;S36、将情感特征向量FS输入至分类器中,计算需求主题文本的需求情感得分S。
全文数据:
权利要求:
百度查询: 四川观想科技股份有限公司 一种基于语义理解和行业学习的需求自动拆分和转换方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。