首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

旅游场景强化学习模拟环境构建方法、系统、设备和介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海携程国际旅行社有限公司

摘要:本发明公开了一种旅游场景强化学习模拟环境构建方法、系统、设备和介质,其中旅游场景强化学习模拟环境构建方法包括以下步骤:抽取用户对旅游产品的历史行为数据;对历史行为数据进行session划分;奖励函数确定和用户行为模型估计;输出模拟环境。通过旅游场景强化学习模拟环境的构建,智能体可以在一个类似真实的旅游平台上,与虚拟用户进行多轮交互。在交互过程中,根据用户行为反馈不断更新策略,使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本,为线上强化学习模型提供良好的初始化。

主权项:1.一种旅游场景强化学习模拟环境构建方法,其特征在于,包括以下步骤:抽取用户对旅游产品的历史行为数据;其中,所述历史行为数据包括用户曝光数据、用户点击数据、用户下单数据;对所述历史行为数据进行会话划分,包括:将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据;按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组,形成一个连续的时间序列的行为列表,构成候选会话;判断所述候选会话中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值,若是,则将所述候选会话进行切割以形成目标会话,若否,则以所述候选会话作为所述目标会话;奖励函数确定和用户行为模型估计,包括:在一个会话下,按照时间顺序t,系统每次展示k个产品给一个用户,形成一个浏览量;通过观察该会话下用户behavior的相关数据,计算出在该浏览量下的奖赏值,则形成特定定位城市ID、用户目的地城市、用户搜索关键字下的状态s和动作对a到奖励值r,s,a=r的映射关系;其中,当预测新的用户状态、系统所执行动作获得奖赏时,确定当前出发站城市与目的地城市以及用户所处决策周期的阶段,获得与之相关的状态动作对,计算要预测的状态动作对与历史行为库中的相似性,对奖赏进行加权平均获得该状态行为下的奖赏值,公式如下:Similaritynt,hi=α*distst,si+1-α*distat,ai; 其中nt为要当下时刻的行为和状态,hi为与nt处于相同出发站城市、目的地城市、决策周期阶段所有历史行为状态,dist是一个计算距离的函数,α是一个调节因子;输出模拟环境。

全文数据:

权利要求:

百度查询: 上海携程国际旅行社有限公司 旅游场景强化学习模拟环境构建方法、系统、设备和介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。