买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本发明涉及人工智能领域,提供一种新闻主题词生成方法、装置、设备及介质,能够将训练样本输入至BERT模型构建第一特征向量集,并输入至双向LSTM网络构建第二特征向量集,对第一特征向量集中的向量与第二特征向量集中对应的向量进行特征融合,得到融合向量集并输入至线性层构建第三特征向量集,将第三特征向量集输入至softmax分类器,得到新闻主题词生成模型,将待处理新闻输入至新闻主题词生成模型得到目标新闻主题词。此外,本发明还涉及区块链技术,新闻主题词生成模型可存储于区块链节点中。本发明引入了改进的BERT模型,避免由于分词不清而引起主题词生成错误,同时,结合双向LSTM网络,充分学习了上下文信息,提高了新闻主题词生成的准确度。
主权项:1.一种新闻主题词生成方法,其特征在于,所述新闻主题词生成方法包括:响应于新闻主题词生成指令,根据所述新闻主题词生成指令获取初始样本;对所述初始样本进行预处理,得到训练样本;将所述训练样本输入至用于特征转化的BERT模型,并获取所述BERT模型输出的嵌入式向量构建第一特征向量集;将所述第一特征向量集输入至用于提取时序性特征的双向LSTM网络,并获取所述双向LSTM网络输出的具有时序性的向量构建第二特征向量集;对所述第一特征向量集中的向量与所述第二特征向量集中对应的向量进行特征融合,得到融合向量集;将所述融合向量集输入至用于线性变换的线性层,并获取所述线性层输出的线性变换后的向量构建第三特征向量集;将所述第三特征向量集输入至softmax分类器进行分类,直至所述softmax分类器达到收敛,停止训练,得到新闻主题词生成模型;当接收到待处理新闻时,将所述待处理新闻输入至所述新闻主题词生成模型,并获取所述新闻主题词生成模型的输出作为目标新闻主题词;所述根据所述新闻主题词生成指令获取初始样本包括:解析所述新闻主题词生成指令,得到所述新闻主题词生成指令所携带的信息;获取预先配置的与地址对应的预设标签;根据所述预设标签构建正则表达式;利用所述正则表达式遍历所述新闻主题词生成指令所携带的信息;将遍历到的信息确定为目标地址;连接至所述目标地址,并获取所述目标地址处存储的数据以构建所述初始样本;其中,所述预设标签可以进行自定义配置;获取预设时长内用户浏览及或搜索过的所有新闻;将获取的新闻输入至所述新闻主题词生成模型,并获取所述新闻主题词生成模型的输出作为至少一个主题词;计算所述至少一个主题词中每个主题词出现的概率;根据每个主题词出现的概率从所述至少一个主题词中筛选出目标词;向用户推送带有所述目标词的新闻内容及或向所述用户推送与所述目标词关联的产品;其中,所述根据每个主题词出现的概率从所述至少一个主题词中筛选出目标词包括:从所述至少一个主题词中筛选出概率大于或者等于预设概率的主题词作为所述目标词;及或将所述至少一个主题词按照概率由高到低的顺序进行排序,并将排在前预设位的主题词作为所述目标词。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。