买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州荔支网络技术有限公司
摘要:本发明涉及一种点击率预测模型构建方法、装置、计算机设备和存储介质。所述方法包括基于用户播放声音的行为数据、被播放声音的文本数据,生成播放会话数据;根据播放会话数据的声音唯一标识的向量表示,声音唯一标识对应的第一权重,播放会话数据的主播唯一标识的向量表示,主播唯一标识对应的第二权重,确定用户的向量表示;将用户基础属性数据、用户的统计类信息、标签的统计类信息、用户的向量表示、标签的向量表示作为训练数据输入初始预测模型,并根据损失函数对初始预测模型进行优化,得到点击率预测模型。所述点击率预测模型不需要耗费大量的存储空间。
主权项:1.一种点击率预测模型构建方法,其特征在于,包括:获取用户在设定的历史时间段内播放声音的行为数据、被播放声音的文本数据、被曝光标签的点击率,以及用户基础属性数据、标签基础属性数据;文本数据包括声音唯一标识、主播唯一标识、标签;基于行为数据、文本数据,生成播放会话数据;对文本数据进行标签抽取,得到标签;将声音唯一标识、主播唯一标识、标签输入词向量生成模型,得到声音唯一标识的向量表示、主播唯一标识的向量表示、标签的向量表示;所述词向量生成模型是对预设模型进行训练得到的,所述词向量生成模型的训练数据基于播放会话数据构造;根据播放会话数据的声音唯一标识的向量表示,声音唯一标识对应的第一权重,播放会话数据的主播唯一标识的向量表示,主播唯一标识对应的第二权重,确定用户的向量表示;将用户基础属性数据、用户的统计类信息、标签的统计类信息、用户的向量表示、标签的向量表示作为训练数据输入初始预测模型,并根据损失函数对初始预测模型进行优化,得到点击率预测模型;所述基于行为数据、文本数据,生成播放会话数据包括:基于行为数据、文本数据,生成基础播放会话数据;基于基础播放会话数据生成图,并通过频繁子图挖掘获得频繁子图;基于频繁子图生成扩充播放会话数据;所述根据播放会话数据的声音唯一标识的向量表示,声音唯一标识对应的第一权重,播放会话数据的主播唯一标识的向量表示,主播唯一标识对应的第二权重,确定用户的向量表示,包括:根据用户于设定的历史时间段内最近一个播放会话数据的各声音唯一标识的向量表示的平均值、声音唯一标识对应的第一权重、用户于设定的历史时间段内最近一个播放会话数据的主播唯一标识的向量表示的平均值、主播唯一标识对应的第二权重,确定用户的向量表示;第一权重与第二权重的和为1;用户的向量表示根据以下公式确定:Vecuser=a*Vecsession声音ID+b*Vecsession主播ID其中,Vecuser为用户的向量表示,Vecsession声音ID为用户于设定的历史时间段内最近一个播放会话数据的各声音唯一标识的向量表示的平均值,a为声音唯一标识对应的第一权重,Vecsession主播ID为用户于设定的历史时间段内最近一个播放会话数据的主播唯一标识的向量表示的平均值,b为主播唯一标识对应的第二权重。
全文数据:
权利要求:
百度查询: 广州荔支网络技术有限公司 一种点击率预测模型构建方法、装置、计算机设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。