Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京大学李文峰获国家专利权

南京大学李文峰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京大学申请的专利基于改进深度确定性策略梯度的水下计算任务卸载方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119255300B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411768075.4,技术领域涉及:H04W28/084;该发明授权基于改进深度确定性策略梯度的水下计算任务卸载方法是由李文峰;刘帅;张慧杰;赵康僆设计研发完成,并于2024-12-04向国家知识产权局提交的专利申请。

基于改进深度确定性策略梯度的水下计算任务卸载方法在说明书摘要公布了:本发明公开了一种基于改进深度确定性策略梯度的水下计算任务卸载方法。首先初始化任务卸载问题的状态空间,使用卸载模式和卸载数量矩阵加噪构造动作空间,使用任务卸载能耗的倒数设计奖励函数;其次改进深度确定性策略梯度算法,在算法参数更新过程中使用自适应更新幅度方法,初始阶段将更新幅度设置为较高的值,在算法训练的过程中逐渐将其减小;最后通过改进深度确定性策略梯度解决任务卸载问题,输入任务卸载问题的马尔可夫决策模型,不断训练迭代到平均损失函数不再减小,输出任务卸载模式和卸载数量。本发明能够有效加快算法的收敛速度,降低传感器节点任务卸载的能耗。

本发明授权基于改进深度确定性策略梯度的水下计算任务卸载方法在权利要求书中公布了:1.一种基于改进深度确定性策略梯度的水下计算任务卸载方法,其特征在于,包括以下步骤:S1:计算任务卸载马尔可夫决策模型建立,具体如下:S1-1:初始化任务卸载问题的状态空间:部署太空-海面-水下的三层网络架构,包含M颗卫星节点,记为Γsa={Sa1,Sa2,...,SaM};N个浮标节点,记为Γbu={Bu1,Bu2,...,BuN};每个浮标节点为n′个水下传感器节点提供计算服务,记为第i个浮标节点和其管理的第j个水下传感器节点分别记为Bui和Uni,j;卫星节点和浮标节点都内置边缘服务器,能够进行数据分析和计算,浮标节点同时配备声学模块和电磁波模块,能够同时和水下传感器节点与卫星节点通信;水下传感器节点将产生的计算任务在本地处理,或者将计算任务卸载到浮标节点或者卫星节点的边缘服务器上进行计算,水下传感器节点产生的计算任务包括数据分析和运行网络协议;设Gi,j和gi,j分别表示水下传感器节点拥有的计算任务总量和计算任务的卸载数量;当gi,j≠0时,代表Uni,j的计算任务需要被卸载到浮标节点Bui或卫星节点Sam,否则代表Uni,j的计算任务由水下传感器节点本地处理;定义uni,j指示任务被卸载到浮标节点还是卫星节点,表示为: 水下传感器节点在水下组网,将每个水下传感器节点视为智能体,在时隙t的初始阶段,智能体会感知环境信息,时隙t处的状态由网络中所有智能体的状态组成,状态空间st表示为:st={s1′t,s2′t,...,se′t,...,s′Vt}7其中,V代表网络中所有智能体的数量,se′t代表第e个智能体在时隙t处的状态,se′t包含以下部分:se′t={Slinkt,Slocalt,Salloct,Staskt,Sresout,Senergt}8其中,Slinkt代表链路状态信息,Slocalt代表地理位置信息,Salloct代表资源分配信息,Staskt代表当前计算任务信息,Sresout代表计算资源信息,Senergt代表剩余能量信息;S1-2:使用卸载模式矩阵和卸载数量矩阵加噪构造动作空间:设代表卸载模式矩阵,且有代表卸载数量矩阵,且有将卸载矩阵R定义为与对应元素相乘,则卸载矩阵R表示为: 动作空间由卸载矩阵R组成,其中,uni,j∈{0,1}指示Uni,j的计算任务卸载模式,gi,j∈[0,Gi,j]指示Uni,j的计算任务卸载数量,且当gi,j=0时,表示Uni,j任务在本地处理,卸载矩阵R对应位置元素标记为负值,即Gi,j表示第i个浮标节点管理的第j个水下传感器节点拥有的计算任务总量;时隙t处原始动作空间集合a′t表示为:a′t={a′1t,a′2t,...,ai′t,...,a′Nt}10其中,ai′t代表第i个浮标节点管理的第j个Uni,j在时隙t处可选择的动作,由卸载矩阵R的每一行拼接而成,ai′t表示为: 为增加动作空间的随机性,给原始动作空间添加随机噪声fnoise,最终动作空间at表示为:at=a′t+fnoise12其中,a′t代表原始动作空间,fnoise代表随机噪声;S1-3:使用计算任务卸载能耗的倒数设计奖励函数:使用计算任务卸载能耗的倒数作为奖励,引导智能体逐渐降低计算任务卸载的能耗,奖励函数的计算公式为: 其中,表示时隙t内Uni,j在本地处理计算任务的能耗,表示时隙t内Uni,j在浮标节点Bui上处理任务的能耗,表示时隙t内Uni,j在卫星节点Sam上处理任务的能耗,和分别代表浮标节点业务和卫星节点业务的额外奖励,其中当浮标节点Bui业务繁忙时,值为负数,反之值为正数;当卫星节点Sam业务繁忙时,值为负数,反之值为正数;S2:改进深度确定性策略梯度算法:具体如下:S2-1:计算改进深度确定性策略梯度的当前Q值函数值,通过最小化平均损失函数来进行算法训练:改进深度确定性策略梯度当前Q值函数的计算公式为: 其中,st代表状态空间,at代表动作空间,rst,at代表奖励函数,代表当前Q值函数的参数;δ代表折扣系数,δ取值范围在0到1之间,取值越接近于1表示越重视未来的Q值;代表当前策略函数;rst,at代表奖励函数;代表下一状态的当前Q值函数,目标Q值函数的计算公式为: 其中,代表目标Q值函数的参数;代表目标策略函数;代表下一状态的目标Q值函数;通过最小化平均损失函数来进行算法训练,平均损失函数LossQ计算公式为: 其中,V代表网络中所有智能体的数量;S2-2:改进DDPG算法参数和更新过程中使用自适应更新幅度方法,初始阶段将更新幅度设置为最大值,在改进DDPG算法训练过程中逐渐将其减小:使用自适应更新幅度方法更新步骤S2-1中的参数和计算公式为: 其中,κ为更新幅度,介于0和1之间,κ值越小表示算法更新越缓慢;在改进DDPG算法训练的初始阶段将更新幅度κ设置为最大值,在改进DDPG算法训练过程中逐渐将其减小,计算公式为: 其中,κ0和κ1分别代表初始和后期的更新幅度,根据公式5,自适应更新幅度的κ值会从κ0逐渐变化到κ1,在变化过程中一旦κ≤κ1或者t0.5Tyv,则立即切换到κ=κ1;是更新幅度大小控制阈值,确定取值范围在0.5到2.5之间,取值越小初始更新幅度越小;Tyv代表切换时间阈值,确定Tyv取值范围在1到10之间,取值越大代表更新幅度切换时间越长;S3:通过改进深度确定性策略梯度算法解决计算任务卸载问题:将步骤S1中建立的计算任务卸载马尔可夫决策模型输入到步骤S2中的改进深度确定性策略梯度算法,不断训练S2中的改进深度确定性策略梯度算法,直到的平均损失函数不再减小,输出计算任务卸载模式和卸载数量。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。