江南大学吴琼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江南大学申请的专利基于异构通信技术超可靠低时延强化学习的任务卸载方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115118783B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210756389.7,技术领域涉及:H04L67/60;该发明授权基于异构通信技术超可靠低时延强化学习的任务卸载方法是由吴琼;汪文华设计研发完成,并于2022-06-30向国家知识产权局提交的专利申请。
本基于异构通信技术超可靠低时延强化学习的任务卸载方法在说明书摘要公布了:本发明公开了一种基于异构通信技术超可靠低时延强化学习的任务卸载方法,构建车辆边缘计算场景及车辆异构通信网络,车辆可以通过三种通信技术将任务卸载到服务器进行处理;构建基站队列动态变化模型,保证基站队列的稳定性;使用随机网络演算理论计算基于不同通信技术进行卸载的系统延迟上界,该延迟包括了通信传输时间以及服务器处理时间;建立车辆边缘计算系统效用;建立优化问题,优化目标为最小化系统效用,同时保证任务卸载延迟和基站队列的稳定性;使用SoftActorCritic强化学习来学习每个任务的卸载策略和服务器CPU分配策略。本发明采取的任务卸载策略和资源分配方案在降低系统效用、控制系统稳定性和保证任务传输时延要求优于其他的卸载和资源分配方案。
本发明授权基于异构通信技术超可靠低时延强化学习的任务卸载方法在权利要求书中公布了:1.一种基于异构通信技术超可靠低时延强化学习的任务卸载方法,其特征在于,包括以下步骤: 1构建车辆边缘计算场景,所述场景由一个连接服务器的基站、多个路侧单元和车辆组成;构建由毫米波、DSRC和CV2I三种通信技术构成车辆异构通信网络,车辆通过三种通信技术将任务卸载到服务器进行处理; 2基于随机网络演算理论构建有界突发型的流量模型; 3构建基站队列动态变化模型,保证基站队列的稳定性; 4基于随机网络演算理论建立毫米波、DSRC和CV2I三种通信技术的通信传输模型,同时建立CPU的计算处理模型;由串联定理,对通信传输模型和计算处理模型进行最小加卷积得到系统处理模型; 5推导基于各个通信技术进行卸载和处理的延迟概率上界;所述延迟包括了通信传输时间以及服务器计算处理时间; 6建立车辆边缘计算系统效用,所述系统效用由通信效用和计算效用组成; 7建立优化问题,优化目标为最小化系统效用,同时保证任务卸载延迟和基站队列的稳定性; 8使用SoftActorCritic强化学习来学习每个任务的卸载策略和服务器CPU分配策略; 所述步骤7实现过程如下: 其中,为第i个任务的最大传输和处理时延要求;控制变量αt=[α1t,α2t,....αNt]分配CPU的时钟周期资源,为通信卸载策略,其中条件C1是使队列处于稳定的状态;条件C2确保每个类型任务的传输和处理时间在最大延迟要求之内,由于任务通过三种不同的通信技术进行卸载,和三者之间的最大值作为第i个任务的传输时延上界;约束C3保证用于处理所有任务的CPU时钟周期不能超过服务器上可用的CPU计算资源总量;约束C4保证每个任务选择mmwave、DSRC或CV2I来执行计算任务; 采用Lypunov技术来解决这一个长期的随机约束C1: 定义二阶的Lypunov函数Lt和1-时隙Lypunov漂移量ΔLt: 其中Qt=[q1t,q2t,...qNt];然后,将期望系统效用增加到漂移量中得到漂移加惩罚项,即ΔLt+V·E{Ft|Qt},其中V是一个由系统设置非负参数,用于在系统效用和队列积压之间进行权衡;对于任何给定的控制参数V≥0在关于卸载工作负载αi下,得到漂移加惩罚项: 其中,原始的时间平均长期队列长度条件C1以隐式的方式吸收为优化目标中,问题P1的优化目标转换为为F2t: 采用包含状态、动作和奖励的DRL框架来制定VEC中的计算资源分配策略和异构通信卸载策略问题: t时刻的状态空间st为: st=[At,Qt,ξt]35 由于At和维度都为N维,而维度为4N维,状态空间的维度为5N维; t时刻的动作空间at为: 其中,αit和都需要满足公式30中的约束条件和增加一个虚拟变量αN+1t输出N+1维动作的深度神经网络,然后在输出层对这N+1维变量使用softmax函数满足: 只取前N的动作;同理,对每个任务i的输出动作和使用softmax函数,实现这样动作空间是N+1+3N维,动作空间的维数随着任务类型的数量增加而增加;同样,通过对每个任务的输出动作和使用softmax函数,从而实现所以动作空间是4N+1维; 在时间t的奖励函数rt为: rtat,st=-F2t38 rtat,st说明在状态st采取行动at后,环境对agent的奖励反馈,用πat|st表示agent基于状态st采取的动作空间分布,该系统的预期长期折扣回报计算为: 其中,γ∈[0,1]是代表agent对长期或短期奖励关注的折扣因子,数值越高表示agent越关注长期奖励,反之则关注当前的短期奖励;τ=s0,a0,s1,aa,…是agent依赖于动作空间分布πat|st的状态和行为轨迹。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江南大学,其通讯地址为:214000 江苏省无锡市蠡湖大道1800号江南大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。