Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融合大语言模型和知识图谱的电影个性化推荐方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东技术师范大学

摘要:本发明提供一种融合大语言模型和知识图谱的电影个性化推荐方法及系统,方法包括:采集包含有电影详细信息的数据集并进行预处理;基于预处理后的数据集构建知识图谱;基于知识图谱构建提示词对大语言模型进行微调,同时结合传统推荐算法构建融合评分模型;对融合评分模型进行训练,利用训练好的融合评分模型进行评分预测和个性化推荐;本发明通过构建知识图谱,充分利用了电影的丰富元数据,提高了推荐系统的准确性和个性化程度;另外,本发明还将大模型与传统的协同过滤方法相结合,构建出融合模型,集传统协同过滤方法与大语言模型各自之长,从而实现更加精准和更具有鲁棒性的评分预测,为用户提供更准确、更符合个性化需求的电影推荐。

主权项:1.一种融合大语言模型和知识图谱的电影个性化推荐方法,其特征在于,包括以下步骤:S1:获取用户评分数据集和电影元数据集并分别进行预处理;所述用户评分数据集中包括若干个用户对不同电影的评分数据;所述电影元数据集中包括所述用户评分数据集中所有已评分电影对应的电影信息数据;用户评分数据集具体为MovieLens数据集;每条用户评分数据的内容包括:用户ID、电影ID,用户评分和时间戳;根据所述电影ID在TMDB数据库中提取对应的电影信息数据,并共同保存为所述电影元数据集;所述电影信息数据若干个字段,所述字段包括:参演人员、创作人员、年龄限制、所属系列电影、电影预算、电影类型、电影主页信息、电影ID、电影原始语言、电影原始语言标题、关键词、摘要、电影流行度、封面路径、制作公司、制作国家、发行日期、票房收入、电影发行语言、电影宣传语、英文标题、电影预告片、平均评分和评分人数;所述步骤S1中,分别对所述用户评分数据集和电影元数据集依次进行数据去重、缺失或异常数据剔除和数据分类,并采用留出法将分类后的用户评分数据集划分为若干个互相独立且不重叠的子集,所述子集分别用于大语言模型的微调,以及协同过滤模型的训练和测试,完成预处理;所述数据分类包括:根据不同的字段对每条电影信息数据及其对应的评分数据赋予类别标签;S2:利用预处理后的电影元数据集构建知识图谱,包括依次进行的以下步骤:S2.1:知识抽取:对预处理后的电影元数据集进行实体抽取、实体之间的关系抽取和实体的属性抽取,分别得到对应的实体子集、实体关系子集和实体属性子集;S2.2:知识融合:将知识抽取到的所述实体子集、实体关系子集和实体属性子集初步融合为包含若干个实体节点的知识图谱;通过不同的电影ID和发行日期来区分具有相同名称但不属于同一部电影的情况,从而对初步融合得到的知识图谱进行实体消歧;将电影的参演人员和创作人员与相应电影进行匹配,从而对初步融合得到的知识图谱进行实体对齐;经过实体消歧和实体对齐后,获取最终的知识图谱;S2.3:知识存储:将所述最终的知识图谱导入Neo4j知识图谱数据库进行存储和可视化处理;结合所述知识图谱和预处理后的用户评分数据集构建大模型提示词,以及微调指令数据集;所述大模型提示词的类型包括:基于电影类型的提示词、基于关键词的提示词,以及基于由电影信息数据和评分数据组成的完整元数据的提示词;每种类型的大模型提示词格式统一,内容均包括:电影标题字段、用户评分和关键词字段;所述微调指令数据集包括大语言模型在预测时需要遵循的若干条指令;S3:利用所述大模型提示词和微调指令数据集对预设的大语言模型进行微调,获取大语言微调模型;S4:利用所述大语言微调模型和预设的协同过滤模型构造融合评分模型;S5:设置融合评分模型的损失函数,利用所述预处理后的用户评分数据集和电影元数据集对所述融合评分模型中进行训练,优化所述大语言微调模型和协同过滤模型的权重分配,获取最优的融合评分模型,包括:将所述电影元数据集分别输入大语言微调模型和协同过滤模型中,获取大语言微调模型输出的第一预测结果集,以及协同过滤模型输出的第二预测结果集;将第一预测结果集和第二预测结果集共同保存为初步预测结果集;将所述初步预测结果集按比例划分为训练集和测试集;利用训练集对所述融合评分模型进行训练,并结合预处理后的用户评分数据集计算损失函数值,根据损失函数值调整所述大语言微调模型和协同过滤模型的权重占比,使用顺序最小二乘算法最小化损失函数,直至损失函数值小于等于一定值时,获取训练后的融合评分模型;所述融合评分模型的损失函数具体为: 其中,LMSE为融合评分模型的损失函数值,N为训练样本总数;为融合评分模型输出的第i个样本的预测值;yi为第i个样本的真实值,即预处理后的用户评分数据集中第i个用户评分;利用测试集评估所述训练后的融合评分模型的性能指标,当性能指标满足预设条件时获取所述最优的融合评分模型;所述性能指标包括均方根误差RMSE、平均绝对误差MAE和AUC指标;S6:获取若干个待推荐电影对应的电影信息数据并输入所述最优的融合评分模型,获取每个待推荐电影对应的预测评分,将预测评分大于等于预设阈值的所有待推荐电影推荐给用户,完成电影个性化推荐。

全文数据:

权利要求:

百度查询: 广东技术师范大学 融合大语言模型和知识图谱的电影个性化推荐方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。