恭喜河海大学何宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜河海大学申请的专利一种基于联邦深度强化学习的水下传感网信任管理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117082492B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310994515.7,技术领域涉及:H04W12/00;该发明授权一种基于联邦深度强化学习的水下传感网信任管理方法是由何宇;韩光洁;王皓;江金芳设计研发完成,并于2023-08-09向国家知识产权局提交的专利申请。
本一种基于联邦深度强化学习的水下传感网信任管理方法在说明书摘要公布了:本发明涉及一种基于联邦深度强化学习的水下传感网信任管理方法,其步骤包括:步骤一:信任管理框架构建,步骤二:深度强化学习信任建模,步骤三:联邦学习信任模型更新。本发明提出的基于联邦深度强化学习的水下传感网信任管理方法针对跨域异构水下传感网环境的特点,利用深度强化学习、联邦学习等技术方法,提高信任模型预测精度、降低信任更新成本,从而提升异构设备组成的水下传感网中的整体信任管理效率。
本发明授权一种基于联邦深度强化学习的水下传感网信任管理方法在权利要求书中公布了:1.一种基于联邦深度强化学习的水下传感网信任管理方法,其特征在于:包括以下步骤:步骤一:信任管理框架构建信任管理框架在逻辑上将水下传感器网络分为控制层和数据层;网络中各类设备按照功能划分为全局控制器、局部控制器和数据收集器;唯一的全局控制器负责整个网络的策略调控以及全局的信任更新;每个局部控制器利用从各自区域汇聚的数据训练并维护一个局部信任模型;数据收集器在采集水下数据的同时将彼此间交互信息传递给所属的局部控制器;步骤二:深度强化学习信任建模深度强化学习信任建模包括在全局控制器上的预训练和局部控制器上的实际训练两个阶段;在网络初始化之后,全局控制器基于虚拟交互环境进行模型预训练,以弥补初期交互经验缺乏的问题;随后,将预训练的模型参数作为局部模型的初始化参数传递给局部控制器,每个局部控制器根据各自区域内收集器之间的实际交互数据进一步训练模型;步骤三:联邦学习信任模型更新各局部控制器定期将局部模型的参数发送给全局控制器,代替直接传递历史交互数据,以实现模型更新与数据存储的解耦合,从而降低更新成本的同时保护局部数据隐私;全局控制器在接收到各局部模型参数后,利用联邦平均方法进行参数的全局更新,并将更新后的模型参数重新发布给所有局部控制器;局部控制器以接收到的全局参数替换本地模型参数,并继续基于实际交互数据进行模型更新;不断迭代上述全局更新和模型更新过程,使得信任预测模型能够不断适应动态变化的水下网络环境;所述步骤一中,信任管理框架构建方法如下:由波浪滑翔器、水下滑翔机、AUV、海底飞行节点、水下潜标阵列多种类型设备组成的水下传感器网络,其中各类设备按功能划分为全局控制器、局部控制器和数据收集器,并将整个网络从逻辑上分为控制层和数据层;部署的信任管理架构分为信任证据收集、信任建模和信任更新三个模块;首先,水下收集器在进行数据收集的过程中,记录设备彼此之前的交互信息,生成信任证据,并发送给从属的局部控制器;接着,局部控制器基于获取的信任证据训练得到信任模型,并将模型参数周期性发送给全局控制器;最后,全局控制器根据来自不同局部控制器的模型参数进行联合信任更新,并向各局部控制器反馈更新后的模型参数;局部控制器同时将信任预测模型向所属区域内收集器发布,用于交互过程中收集器之间的信任评估;所述步骤二中,深度强化学习信任建模方法如下:当网络中节点需要选择邻居节点进行数据转发、查询任务时,当前评估者,即代理人,基于自身当前状态s,通过策略π执行动作a,并转移到新状态s′,同时得到相应的奖励r;信任模型旨在利用实体之间的交互经验来预测评估对象的可信任程度,这与强化学习中根据代理人状态给出相应动作相类似,因此将通信证据能量证据ε、数据证据这三类信任证据定义为评估者的状态;每个状态用一个三元组表示为其中动作与信任模型的输出对应,将动作定义为评估者对评估对象作出的信任评分,满足a∈[0,1];强化学习中的奖励指交互环境对于代理人执行的动作给出的反馈分数,奖励的作用在于引导代理人逐渐学习到适应于当前交互环境的行为策略;将奖励定义为动作与信任证据的累积偏差:式中s[i]表示状态三元组中第i个信任证据;权重满足强化学习中的策略表示状态与动作之间的映射关系函数,策略即为部署于评估者的信任模型;强化学习问题不仅面向连续的状态空间,即而且面向连续的动作空间,即a∈[0,1],因此,采用适用于解决强化学习问题的深度确定性策略梯度算法进行强化学习模型的训练;模型训练主要分为两个阶段:1在全局控制器内进行的模型预训练;2在每个局部控制器内进行的实际训练;两个训练阶段都基于深度确定性策略梯度算法框架进行;网络初始化后,全局控制器基于虚拟交互环境进行模型预训练;虚拟交互环境的工作流程包括五个模块;虚拟交互环境的输入at表示评估者对评估对象的信任评分,同时,模块1将at作为决定评估者是否与评估对象进行交互的概率;模块2初始随机生成评估对象的绝对可信度,绝对可信度等价于评估对象执行正常交互行为的概率;模块3根据前两个模块的结果模拟评估者与评估对象之间的交互,包括更新成功失败通信的次数、节点剩余能量和是否篡改数据等属性;之后,将更新后的属性输入到模块4并计算信任证据ε、和奖励r;最后,模块5将信任证据组合成状态并输出st、rt以及st+1;基于深度确定性策略梯度算法训练框架和虚拟交互环境,全局控制器在训练收敛后得到一组神经网络参数θ,θ′,w,w′,其中向量θ表示策略网络权重,向量θ′表示目标策略网络权重,向量w表示价值网络权重,向量w′表示目标价值网络权重;最后将多次训练收敛后所得到各类神经网络参数的均值作为预训练结果传递给所有局部控制器;局部控制器在接收到预训练参数后,首先将信任评估模型分发给所属区域的收集器;之后,收集器基于信任评估模型进行交互,并定期将交互经验st,at,rt,st+1发送给所属局部控制器;最后,局部控制器将来自不同收集器的交互经验存储在经验缓存中,并采用小批次随机采样的方法基于深度确定性策略梯度算法训练框架进行本地的模型训练;所述步骤三中,联邦学习信任模型更新方法如下:全局控制器在接收到各局部模型参数后,利用联邦平均方法进行参数的全局更新,并将更新后的模型参数重新发布给所有局部控制器;局部控制器以接收到的全局参数替换本地模型参数,并继续基于实际交互经验进行模型更新;上述全局更新和模型更新过程不断迭代,从而保证信任预测模型能够不断适应动态变化的网络环境;网络中包含唯一的全局控制器和m个局部控制器{LC1,LC2,…,LCm-1,LCm};每经过时间T,所有局部控制器将其最新达到收敛的模型参数发送给全局控制器;接着,全局控制器进行全局模型参数更新:式中θT表示上一轮的全局模型参数,η表示软更新系数;最后,全局控制器将更新后的模型参数θT+1发送给所有局部控制器;局部控制器在接收到全局参数后,以全局参数替换其本地模型参数;之后,局部控制器继续根据来自收集器的交互经验更新本地模型参数,并以周期T重复上述全局更新和模型更新过程,从而使得网络中的信任预测模型自适应于动态变化的水下环境。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:210098 江苏省南京市鼓楼区西康路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。