买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西南交通大学
摘要:本发明公开了一种无人机辅助的车队数字孪生资源分配和车队控制优化方法,具体为:建立一个由车队物理系统PPS、无人机和车队数字孪生PDT组成的网络模型,考虑车辆和无人机动态数据,引入信息年龄AoI模型,通过联合优化车队系统的传输功率和计算功率分配,以PDT的平均峰值AoI与长期平均能耗的加权和最小化建立目标模型;将动态资源优化问题表述为马尔可夫决策过程MDP模型,基于DDPG算法和Dirichlet分布的D3PGRA方法优化求解。本发明考虑了数字孪生地同步时延和车队地控制,可以同时优化车队数字孪生的信息年龄和车队的控制策略,能有效解决车队功率分配和车队控制联合优化问题。
主权项:1.一种无人机辅助的车队数字孪生资源分配和车队控制优化方法,其特征在于,包括以下步骤:步骤1:无人机辅助的车队数字孪生网络模型;模型由车队物理系统PPS、无人机和车队数字孪生PDT组成;PPS由一个头车PL和一组成员车辆PM组成,以{1,2,...,n,...,N}为索引,其中n=1表示PL,N是列队车辆的总数;每辆车都配备了车载传感器收集有关周围环境的状态数据和信息;状态数据用于更新车辆的DT;忽略传感器的数据收集时间,所有列队车辆都将收集到的状态数据传输到托管PDT的无人机;车辆n的DT定义为: 其中,Dn表示车辆状态数据,An表示信息年龄AoI;步骤2:建立系统动力学模型;1车辆动态模型:车辆n在第t个UP中的纵向车头位置和速度分别表示xnt和vnt;假设同一UP中xnt的变化足够小,车辆n与前方车辆n-1之间的间隙距离为:dnt=xn-1t-xnt-dveh2其中,dveh是车辆的长度;同步的PDT将信息反馈给每个PM,以调整与PL一致的PM的行驶状态;在这种情况下,车队采用领导者跟随控制策略;车辆n的加速度是PL速度和间隙距离的函数,写成: 其中,α和β是车辆控制参数,V·是空间距离的函数: 其中,dmin和dmax分别是最小和最大车辆间隙距离,vmax是最大速度;如果PDT同步失败,则每个PM采用前车跟随控制策略跟随其前车,在该条件下,使用智能驾驶员模型IDM来构建车辆的动态模型,第t个UP中车辆n的加速度为: 其中,amax是最大加速度,Δvnt=vnt-vn-1t是相对速度,δ1∈[1,5]是驾驶员灵敏度特征;FΔ·是一个通过以下公式计算的函数: 其中,tmin是最小时间前进距离,amin是最小加速度;因此,车辆n在第t个UP中的加速度、速度和位置为: vnt=vnt-1+ant-1τ8 为了保证列队车辆的安全行驶,对车辆空间距离、速度和加速度的限制如下: 2无人机动态模型:假设无人机在第t个UP中的位置、速度和加速度分别为x0t、v0t和a0t;无人机在第t个UP中的飞行速度和位置为:v0t=v0t-1+a0t-1τ11 为了无人机飞行的安全,对飞行速度和加速度的限制如下: 步骤3:建立通信模型和计算模型;将车辆n在第t个UP开始时收集的状态数据的大小定义为Dnt比特;1通信模型:在通信网络中,采用正交频分多址OFDMA通信技术,假设无人机与列队车辆之间的无线通信信道以视线距离LoS为主,则第t个UP中车辆n与无人机之间的信道增益为: 其中,g0是一米通信距离的信道功率增益,δ2是路径损耗指数,是车辆n与无人机之间的通信距离;在给定的通信带宽B下,根据香农公式,第t个UP中车辆n的数据传输速率为: 其中,σ2是背景白高斯噪声的功率,是传输功率,是最大传输功率;因此第t个UP中车辆n的状态数据传输时间为: 在第t个UP中传输车辆n状态数据所消耗的能量为: 2计算模型:状态数据到达无人机后,边缘服务器对状态数据进行分析计算来更新DT;假设边缘服务器配备了高性能处理器,可并行处理所有列队车辆传输的状态数据;无人机在第t个UP中处理车辆n状态数据的时间为: 其中,L0是执行1个比特状态数据所需的CPU周期,表示分配的CPU容量,是分配的计算能力,是最大计算能力,κ是无人机处理器的有效开关电容;无人机计算第t个UP中车辆n状态数据所消耗的能量为: 步骤4:信息年龄AoI模型;使用AoI来表示DT的延迟,处理第t-1个UP初始时刻生成的状态数据所用时间为来更新DTn;因此,DTn在那一刻的AoI等于状态数据的处理时间;DTn的AoI持续增加,直到DTn再次更新;在第t个UP中,经过时间处理新的状态数据以更新DTn;此时,DTn的AoI下降到Ant是DTn在第t个UP中的峰值AoI,通过以下公式计算: 由于每个UP中车辆DT的更新时间存在差异,假设只有在所有车辆DT的更新过程完成后,PDT才会更新;因此,PDT的更新时间取决于所有车辆DT的最大更新时间,PDT的峰值AoI为: 设当每个UP中的APDTt不超过时,PDT与PPS成功同步: 步骤5:系统模型问题建模;整个系统在第t个UP中的平均能耗为: 系统模型目标是通过联合优化车队系统的传输功率和计算功率分配,使PDT的平均峰值AoI与长期平均能耗的加权和最小化: 其中,ω1∈[0,1]和ω2∈[0,1]是加权系数,满足ω1+ω2=1;ω和ωω2的不同组合表示不同性能指标之间的平衡;约束条件10和13确保车队和无人机的安全运行;约束条件22限制了PDT的最大延迟;约束条件25和26分别限制了最大传输功率和计算功率;步骤6:模型求解;首先将该动态资源优化问题表述为马尔可夫决策过程MDP模型;1MDP模型;将整个系统视为环境状态S,环境状态由每辆编队车辆的局部状态组成,在每个时隙的初始时刻,智能体根据系统的状态做出动作A,该动作包括每个车辆的发射功率以及无人机为每辆车分配的计算功率;在做出动作之后,智能体会立即从环境中获得即时奖励R,该奖励由整个系统的平均能耗和PDT的peakAoI组成;MDP中状态、动作、即时奖励函数定义如下:1状态S:车辆n在第t个UP中的状态由状态数据的大小、与无人机的信道增益以及PDT的peakAoI组成;所有车辆的状态组成整个系统的状态,因此,系统的状态定义为: 其中,snt=[Dnt,gnt,APDTt-1];2动作A:智能体在每个UP开始时的动作是所有车辆的传输能力和计算能力: 其中,3即时奖励函数R:在每个UP中,智能体的直接奖励包括系统平均能耗的加权总和、PDT的峰值AoI和惩罚函数: 其中,和分别是能耗因子和AoI因子,旨在使PDT的平均能耗和峰值AoI保持在同一数量级;zt·P是一个惩罚函数,其中P是一个大常数,当APDTt超过阈值时,zt为1,否则为0;2基于DDPG算法和Dirichlet分布的D3PGRA方法优化求解;DDPG算法基于Actor-Critic结构,Actor网络用于学习生成动作的策略函数,critic网络用于学习评价输出动作策略的价值函数;其中,actor网络的输入为环境状态,输出为连续的确定性动作;critic网络的输入为环境状态和动作,输出为Q值;为了捕获系统状态中信道增益的时序特征,重新设计Actor网络,该网络由多头自注意力MHSA层、长短期记忆网络LSTM层和全连接FC层组成;在Actor在线网络输出动作后加入OU随机噪声;使用给定的Dirichlet抽样的随机过程来使智能体探索状态空间,同时使用Dirichlet分布来生成最终的输出动作;全连接神经网络的输出层大小为2N,前N个输出通过Dirichlet采样得到发射功率动作,后N个输出通过Dirichlet采样得到计算功率动作;传输功率作用和计算功率作用服从狄利克雷分布,即pt~Diro和pc~Diro;Dirichlet分布的概率密度函数为: 其中,p={p1,...,pi,...pN}是功率分配比,o={o1,...,oi,...,oN}是计算出的网络输出;为了满足oi0,计算每个网络输出:其中outi是网络输出,ε是一个非常小的非负常数;Critic在线网络的参数使用随机梯度下降SGD方法进行更新: 其中,αθ是Critic在线网络的学习率;yt是目标Q值,由Critic目标网络计算得出: 其中γ是折扣系数;是从Actor目标网络输出的目标动作;Actor在线网络使用DPG方法更新神经网络参数: 其中,αμ是Actor在线网络的学习率;两个目标网络参数的更新计算如下:θ-←τ0·θ+1-τ0·θ-37μ-←τ0·μ+1-τ0·μ-38其中τ0是一个非常小的非负常数。
全文数据:
权利要求:
百度查询: 西南交通大学 无人机辅助的车队数字孪生资源分配和车队控制优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。