买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京拓医医疗科技服务有限公司
摘要:本发明属于咨询问答技术领域,公开了一种基于用户画像的咨询问答方法及系统。所述的方法包括如下步骤:构建若干基本领域分类的知识图谱;构建当前用户的用户画像;匹配知识图谱,并生成用户咨询问答训练数据集;构建当前用户的用户咨询问答模型;采集用户的实时咨询问题数据,并进行问题改写;进行用户咨询回答;进行实时咨询答案数据筛选。所述的系统包括依次连接的知识图谱构建单元、用户画像构建单元、训练数据生成单元、咨询问答模型构建单元、咨询问题改写单元、用户咨询问答单元以及咨询答案筛选单元。本发明解决了现有技术存在的回答专业性问题时效果不佳、答案缺乏可信度、使用体验差以及无法个性化定制的问题。
主权项:1.一种基于用户画像的咨询问答方法,其特征在于:包括如下步骤:采集若干基本领域分类的知识大数据,并根据知识大数据,构建若干基本领域分类的知识图谱,包括如下步骤:根据检索网站对于各领域的检索热度排名,选择前若干领域作为基本领域;采集若干基本领域分类的知识大数据,并根据对应的术语词料库,对若干基本领域分类的知识大数据进行预处理,得到若干基本领域分类的预处理后知识数据集;使用预先训练的命名实体抽取模型,抽取预处理后知识数据集的命名实体,得到对应的基本领域分类的若干命名实体;使用预先训练的实体关系抽取模型,抽取预处理后知识数据集的实体关系,得到对应的基本领域分类的若干实体关系;根据若干命名实体和同一基本领域分类的若干实体关系,构建对应的基本领域分类的若干知识三元组;根据若干知识三元组,构建对应的基本领域分类的知识图谱;遍历所有的基本领域分类的预处理后知识数据集,得到若干基本领域分类的知识图谱;采集当前用户的历史行为数据,并根据历史行为数据,构建当前用户的用户画像,包括如下步骤:采集若干注册用户的历史行为数据,并对若干注册用户的历史行为数据进行预处理,得到注册用户的预处理后历史行为数据集;将预处理后历史行为数据集进行维度划分,得到注册用户的若干维度的预处理后历史行为维度数据集;使用FCM聚类算法,对注册用户的若干维度的预处理后历史行为维度数据集进行聚类,得到各维度的若干聚类中心,并为每一聚类中心设置对应的用户标签数据;采集当前用户的历史行为数据,并对当前用户的历史行为数据进行维度划分,得到当前用户的若干维度的历史行为维度数据;根据历史行为维度数据与对应维度的聚类中心的欧氏距离,将当前用户的历史行为维度数据划分至欧氏距离最近的聚类中心;将划分的聚类中心对应的用户标签数据扩散至当前用户的历史行为维度数据,得到当前用户的在若干维度的用户标签数据;将当前用户的用户标签数据按照维度关系进行整合,得到用户标签数据集合,并将用户标签数据集合作为当前用户的用户画像;根据当前用户的用户画像,匹配对应的基本领域分类的知识图谱,并使用匹配的知识图谱,生成用户咨询问答训练数据集;将用户咨询问答训练数据集输入大语言模型进行优化训练,构建当前用户的用户咨询问答模型;采集用户的实时咨询问题数据,并使用匹配的知识图谱,对实时咨询问题数据进行问题改写,得到实时咨询问题改写数据,包括如下步骤:采集用户的实时咨询问题数据,并使用TF-IDF-CI算法,提取实时咨询问题数据的问题关键词集合及排序位置;获取问题关键词集合中每一问题关键词与匹配的知识图谱中所有命名实体之间的余弦相似度;使用余弦相似度最高的命名实体,替换问题关键词集合中对应的问题关键词,得到术语修正后问题关键词集合;根据预设的用户咨询问题模板,对术语修正后问题关键词集合的排序位置进行语序修正,得到语序修正后排序位置;根据术语修正后问题关键词集合及语序修正后排序位置,对实时咨询问题数据进行问题改写,得到实时咨询问题改写数据;将实时咨询问题改写数据输入对应的用户咨询问答模型进行用户咨询回答,得到若干实时咨询答案数据;获取当前用户的用户画像与若干实时咨询答案数据的相似度,并将相似度最高的实时咨询答案数据作为最终实时咨询答案数据进行输出,包括如下步骤:使用TF-IDF-CI算法,提取每一实时咨询答案数据的答案关键词集合;获取当前用户的用户画像的用户标签数据集合与每一实时咨询答案数据的答案关键词集合之间的累加余弦相似度;将累加余弦相似度最高的实时咨询答案数据作为最终实时咨询答案数据进行输出。
全文数据:
权利要求:
百度查询: 北京拓医医疗科技服务有限公司 一种基于用户画像的咨询问答方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。