Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜天津大学四川创新研究院;四川天瓴创新科技集团有限公司谢宇涛获国家专利权

恭喜天津大学四川创新研究院;四川天瓴创新科技集团有限公司谢宇涛获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜天津大学四川创新研究院;四川天瓴创新科技集团有限公司申请的专利一种基于多智能体强化学习的供应链自动化合约代理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119648406B

龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510161946.4,技术领域涉及:G06Q40/04;该发明授权一种基于多智能体强化学习的供应链自动化合约代理方法是由谢宇涛;杨诗宇设计研发完成,并于2025-02-14向国家知识产权局提交的专利申请。

一种基于多智能体强化学习的供应链自动化合约代理方法在说明书摘要公布了:本发明公开了一种基于多智能体强化学习的供应链自动化合约代理方法,步骤为:S1:根据斯塔克尔伯格模型和鲁宾斯坦模型具体建模供应链交易的两种典型场景;S2:通过斯塔克尔伯格模型和鲁宾斯坦模型获取专家经验,对智能体行为员网络进行基于专家经验的预训练;S3:根据博弈特性引入基于对手策略的价值预测、应用时序模型进行历史交易序列的特征提取、优先级经验回放机制,逐步优化智能体的策略。本发明显著提升了算法性能,处理复杂和动态的谈判任务,增强了智能体的前瞻性决策能力,加速了在训练初期的学习过程,在学习过程更专注于重要的经验,提升了整体的学习效率和策略成熟度。

本发明授权一种基于多智能体强化学习的供应链自动化合约代理方法在权利要求书中公布了:1.一种基于多智能体强化学习的供应链自动化合约代理方法,其特征在于,包括以下步骤:S1:根据斯塔克尔伯格模型和鲁宾斯坦模型具体建模供应链交易的两种典型场景;S2:通过斯塔克尔伯格模型和鲁宾斯坦模型获取专家经验,对智能体行为员网络进行基于专家经验的预训练;S3:根据博弈特性引入基于对手策略的价值预测、应用时序模型进行历史交易序列的特征提取、优先级经验回放机制,通过不断地从经验池中获取信息,进行网络优化,集成对手策略模型的架构算法,逐步优化智能体的策略;所述步骤S1包括以下子步骤:S11:在构建的斯塔克尔伯格模型博弈环境中,设定供应商和零售商两种角色,每次交易回合时,供应商设定商品批发价格,零售商则根据商品批发价格决定订货数量,共同完成合同的制定;S12:完成合同后,双方角色与市场进行交互,供应商基于批发价格、零售商的订货量、市场的货物成本计算利润,零售商则根据市场需求量、自身的订货量、批发和零售价格差异计算利润,公式为: ;其中,代表供应商的利润,代表零售商的利润,代表供应商设定的批发价格,代表零售商的订货量,代表供应商的商品成本,代表市场的总需求量;S13:通过双方角色交易完成后所获得的利润,计算双方的状态转移方程、状态、动作,公式为: ;其中,代表时间步发生的状态,代表供应商时间步发生的动作,代表供应商时间步发生的动作,代表交易内容,代表交易的时间步,代表空集,代表即时奖励;S14:在构建的鲁宾斯坦模型博弈环境中,代理分别扮演供应商和零售商角色,环境模拟交替提供报价的关键特性,引入衰减因子,模拟随着谈判的拖延,报价的效用逐渐减少的情况,在每一轮中,供应商提出批发价格,零售商则回应一个订单量,是否达成交易取决于该轮的谈判动态;S15:根据销售结果和成本计算双方角色的奖励,调整因协议延迟而降低的价值,进行多轮的不完全信息条件谈判游戏,直到交易达成或达到预设的最大回合数,未来收益的价值通过衰减因子进行贴现;S16:当双方未达成交易,则继续谈判,双方的预期效用将按照衰减因子衰减,两个角色将交替进行合同制定和合同决策两个行为,若供应商进行合同的制定,决定合同中的批发价格和订货数量,在这个回合中由零售商决定是否接受这份合同,在下一个回合中双方的角色互换,由零售商决定合同中的批发价格和订货数量而供应商决定是否接受,直到双方达成一致;S17:通过回合数和合同本身的内容,判断双方利润:若双方决策的回合数为不超过游戏回合数上限N,两个智能体的利润公式为: ;其中,代表智能体供应商的利润,代表智能体零售商的利润,代表衰减因子,反映了随时间推移潜在机会的损失,范围为,代表需求量,代表取最小值,代表零售商的零售价格,由市场决定,代表时间步;若双方决策的回合数超过游戏回合数上限N则双方利润为0;S18:因双方智能体的状态转移方程仅在不同轮次中有差异,通过合同提议方和合同决策方计算智能体的状态转移方程,公式为: ;其中,代表状态转移方程,代表成交情况,缩写为,包括批发价格和订货数量,包括历史交易报价信息、交易内容以及成交情况, 包含历史交易报价信息、交易内容,代表除本轮之外的所有历史交易报价信息,代表供应商或零售商智能体所获得的利润;所述S3包括以下子步骤:S31:环境发送状态给智能体,智能体从环境中获取输入信息并做出决策,智能体根据当前的状态输入决策反馈下一个状态,在智能体做出决策后,环境根据决策提供反馈,进入下一个状态,并给智能体提供一个即时奖励;S32:存储短期经验当前的决策和环境反馈被存储到短期优先级回放经验池中,供后续优化使用,存储长期经验时,当前的决策和反馈也会被存储到长期优先级回放经验池中,用于更长时间尺度的优化;S33:从经验池采样数据从短期和长期的优先级经验池中抽取样本进行训练,进行策略的优化,使用优先级经验回放机制更新并决定需要采样的数据;S34:对手策略网络优化针对对手的策略网络进行优化,根据预期策略的损失函数训练对手策略网络模型,预测对手行为根据目标行为网络预测下一回合的对手策略,智能体使用优化后的策略预测对手的行为;S35:目标行为网络优化对目标行为网络进行优化,基于对手策略的反馈修正行动,基于优化过的经验样本优化评论员网络;S36:使用从评论员网络获得的反馈,最终优化行为网络,根据TD-Loss时间差分损失对模型的性能进行调整和优化,使用优先级经验回放机制更新数据的优先级。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学四川创新研究院;四川天瓴创新科技集团有限公司,其通讯地址为:610000 四川省成都市天府新经济产业园B6号楼13层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。