Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于数据湖的推荐系统数据处理方法、装置及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明提供了一种基于数据湖的推荐系统数据处理方法、装置及存储介质。将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将所述长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,从而可以解决推荐系统特征数据的高效存储与访问。本发明结合了Flink、Lindorm、Paimon的协同作用,构建了完整的数据处理与分析流程,实现特征的时效性与数据的深度利用,为推荐系统的持续优化提供坚实的技术基础。得益于链路的时效性,本发明可有效解决约10%的特征穿越问题,3%的重复样本问题,使用更精准的样本进行训练后,线上用户的使用率提升了2%,留存提升0.8%。

主权项:1.一种基于数据湖的推荐系统数据处理方法,其特征在于,包括以下步骤:S1,将不同模块的特征数据进行分类,然后根据所述特征数据的实时性需求,将特征数据细分为短期有效类别以及长期有效类别,再将长期有效特征采用永久存储列簇以保证数据完整性,而短期有效特征则分配至定时过期列簇,以实现每一用户ID的特征数据在数据库中的分类化存储;其中,所述短期有效特征又包括小时更新及日更新两个类别;S2,获取用户在客户端app产生的操作行为,并将所述操作行为实时推送至Kafka消息队列中,利用ApacheFlink的流处理能力从所述Kafka消息队列中获取操作行为数据流;S3,对所述数据流进行实时处理,根据用户ID和操作行为数据流查询所述数据库缓存中对应的用户行为和特征数据,构建包含用户ID、商品ID、操作行为的样本数据;S4,将所述样本数据通过ApacheFlink批量写入Paimon分区表中,Paimon分区策略为基于时间、用户ID或操作类型进行多维分区;S5,定期执行离线数据处理,对Paimon分区表中的样本数据进行深度分析,以聚合用户曝光数据,生成标签信息,并将标签信息及曝光时刻的特征数据作为用户训练特征,其中,所述用户训练特征用于为机器学习提供训练样本。

全文数据:

权利要求:

百度查询: 厦门她趣信息技术有限公司 基于数据湖的推荐系统数据处理方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。