买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海应用技术大学
摘要:本发明公开了一种基于自编码器的电影推荐方法,包括步骤S1:从互联网上公开的数据集中获取用户信息、电影信息和用户对电影的评分数据;步骤S2:对用户与电影的信息进行分类筛选,从评论中提取关键词,将信息划分为深层信息与浅层信息并保证每条数据占用适量的内存;步骤S3:对用户与电影的特征进行编码,将特征向量转化为特征值嵌入到评分矩阵中作为自编码器的输入数据;步骤S4:预设参数并对自编码器进行训练,通过得出的结果计算RMSE评价和MAE评价,利用结果反馈对参数进行调整并再次训练;在数据集中加入随机噪音,设置不同噪音率并基于RMSE评价的基础上进行比对,选择并确定最优噪音率;步骤S5:输出数据并依据预测评分进行top‑n电影推荐。
主权项:1.一种基于自编码器的电影推荐方法,其特征在于,包括有以下步骤:步骤S1:从互联网上公开的数据集中获取用户的信息、电影的信息以及用户对电影的评分数据;步骤S2:对用户与电影的信息进行分类筛选,从评论中提取关键词,并将信息划分为深层信息与浅层信息,并保证每条数据占用适量的内存;步骤S3:对用户与电影的特征进行编码,将特征向量转化为特征值嵌入到评分矩阵中作为自编码器的输入数据;定义包括用户性别、用户年龄段和用户职业的用户文本类型数据为,定义包括电影名称、电影类型的项目文本类型数据为,则浅层信息可表示为: ,其中,n表示用户的数量,m表示项目的数量,表示用户数字信息,表示项目数字信息;定义在用户对电影评论中提取的文本类型数据为,则深层信息可表示为: ,在进行数据预处理时,对属性为数字类型的数据,仅做补充数位的处理,使得数字类型的数据位数统一;对属性为文本类型的数据,则将文本字符串转化为数字向量的形式,使得用户的属性信息转化为统一长度的数字向量,便于嵌入层的读取,神经网络嵌入层的最主要作用是降维,同时也能获取数据间一定的关联性,文本类型数据的向量化处理如下所示: ,在进行数据预处理时,需要补充数位使属性相同的数据长度统一;步骤S4:预设参数并对自编码器进行训练,通过得出的结果计算RMSE评价以及MAE评价,利用结果反馈对参数进行调整并再次训练,以提升模型的准确度;参数包括学习率、隐藏层层数、隐藏层结构;在数据集中加入随机噪音,设置不同噪音率并基于RMSE评价的基础上进行比对,选择并确定最优噪音率以提升模型的鲁棒性;步骤S4包括以下内容:确定深度降噪自编码器的模型结构;结合现实实验条件与数据集大小设置隐藏层层数,依据训练评价反馈进行调整,避免隐藏层层数太低造成的学习不足问题与隐藏层层数太高造成的过拟合问题;设置初始学习率、正则化参数与激活函数等的参数,并依据训练评价反馈进行调整;在用户浅层信息、电影浅层信息以及深层信息中分别加入遮蔽噪音,将部分数据按照比例随机的置为0,依据反馈的训练评价对噪音比例进行调整;设置平衡因子α与β,使得通过平衡因子控制的预测比重得到的综合预测评分通过下述式进行计算: ,其中,为综合预测的评分,为通过电影浅层信息预测所得评分,为通过用户浅层信息预测所得评分,为通过深层信息预测所得评分,且;步骤S5:输出数据,并依据预测评分进行top-n电影推荐。
全文数据:
权利要求:
百度查询: 上海应用技术大学 一种基于自编码器的电影推荐方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。