旅游场景强化学习模拟环境构建方法、系统、设备和介质

导航：龙图腾网> 最新专利技术> 旅游场景强化学习模拟环境构建方法、系统、设备和介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海携程国际旅行社有限公司

摘要：本发明公开了一种旅游场景强化学习模拟环境构建方法、系统、设备和介质，其中旅游场景强化学习模拟环境构建方法包括以下步骤：抽取用户对旅游产品的历史行为数据；对历史行为数据进行session划分；奖励函数确定和用户行为模型估计；输出模拟环境。通过旅游场景强化学习模拟环境的构建，智能体可以在一个类似真实的旅游平台上，与虚拟用户进行多轮交互。在交互过程中，根据用户行为反馈不断更新策略，使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本，为线上强化学习模型提供良好的初始化。

主权项：1.一种旅游场景强化学习模拟环境构建方法，其特征在于，包括以下步骤：抽取用户对旅游产品的历史行为数据；其中，所述历史行为数据包括用户曝光数据、用户点击数据、用户下单数据；对所述历史行为数据进行会话划分,包括：将用户曝光数据、用户点击数据、用户下单数据拼接合并以形成合并数据；按照用户ID、搜索关键词、定位站、目的地站对合并数据进行分组，形成一个连续的时间序列的行为列表，构成候选会话；判断所述候选会话中用户对当前产品行为的时间距上一个产品的时间跨度是否大于预设阈值，若是，则将所述候选会话进行切割以形成目标会话，若否，则以所述候选会话作为所述目标会话；奖励函数确定和用户行为模型估计，包括：在一个会话下，按照时间顺序t，系统每次展示k个产品给一个用户，形成一个浏览量；通过观察该会话下用户behavior的相关数据，计算出在该浏览量下的奖赏值，则形成特定定位城市ID、用户目的地城市、用户搜索关键字下的状态s和动作对a到奖励值r，s,a＝r的映射关系；其中，当预测新的用户状态、系统所执行动作获得奖赏时，确定当前出发站城市与目的地城市以及用户所处决策周期的阶段，获得与之相关的状态动作对，计算要预测的状态动作对与历史行为库中的相似性，对奖赏进行加权平均获得该状态行为下的奖赏值，公式如下：Similaritynt,hi＝α*distst,si+1-α*distat,ai；其中nt为要当下时刻的行为和状态，hi为与nt处于相同出发站城市、目的地城市、决策周期阶段所有历史行为状态，dist是一个计算距离的函数，α是一个调节因子；输出模拟环境。

全文数据：

权利要求：

百度查询：上海携程国际旅行社有限公司旅游场景强化学习模拟环境构建方法、系统、设备和介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：钢制防火门的焊接装置

下一篇：声纳图像的可视化处理方法、系统和计算装置

相关技术

钢制防火门的焊接装置

声纳图像的可视化处理方法、系统和计算装置

一种惯性传感器探头装置及多自由度检测方法

天然气发动机配气相位控制方法和天然气发动机

一种神经内科用可缓解神经痛的助眠装置

制氢装置以及氢发电系统

一种烟叶分拣定级用的翻转分料装置及方法

一种行星齿轮减速机

一种新能源汽车语音功能测试方法、系统及设备

一种基于三嗪共价有机框架材料的制备及用途

恒湿机

一种盾构壁后注浆浆液及其制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

旅游场景强化学习模拟环境构建方法、系统、设备和介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务