首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于SAC算法的一维非均匀阵列设计方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工程大学

摘要:一种基于SAC算法的一维非均匀阵列设计方法及系统,本发明涉及基于SAC算法的一维非均匀阵列设计方法及系统。本发明的目的是为了解决现有在雷达被动测向系统中,天线数量的提升无疑能够提高测向精度,但是天线数量的增加也会使测向算法运算复杂度增加,以及现有阵列模型依旧受到阵元间距为固定半波长的约束的限制的问题。过程为:步骤一:构造测向精度性能评价标准;步骤二:构造测向分辨力性能评价标准;步骤三:构造阵列物理模型评价标准;步骤四:根据步骤一、步骤二和步骤三,构造阵列整体评价标准,对整体评价标准的目标函数进行求解,输出优化后的阵列摆放方式。本发明用于电子对抗领域。

主权项:1.一种基于SAC算法的一维非均匀阵列设计方法,其特征在于:所述方法具体过程为:步骤一:构造测向精度性能评价标准;步骤二:构造测向分辨力性能评价标准;步骤三:构造阵列物理模型评价标准;步骤四:根据步骤一、步骤二和步骤三,构造阵列整体评价标准,对整体评价标准的目标函数进行求解,输出优化后的阵列摆放方式;所述步骤一中构造测向精度性能评价标准;具体过程为:一维阵列的CRB定义为: 所述CRB为克拉美罗界;其中,d为阵列中阵元坐标,θ为目标信号角度,N为快拍数,为噪声功率,P为目标信号相关矩阵,⊙为Hadamard乘积,为实部运算,A为阵列对目标信号的导向矢量矩阵,AH为A的共轭转置,Rd为接收信号的协方差矩阵,E[]为期望,xdt为t时间的接收信号,为xdt的共轭转置,I为维度等同于天线数量的单位矩阵,Dθ为导向矢量矩阵,为导向矢量矩阵对角度值求导后的矩阵,为得共轭转置,ahθ1为阵列对于目标1的导向矢量,ahθ2为阵列对于目标2的导向矢量,ahθm为阵列对于目标m的导向矢量,θ1为目标1的角度,θ2为目标2的角度,θm为目标m的角度;选取互质阵列的CRB作为参考值,将待优化阵列的CRB与互质阵列的CRB的比值作为奖励函数r1: 式1中,Cθ,d为待优化阵列在某角度下测向的克拉美罗界,d为待优化阵列阵元坐标,θ为目标信号角度,Cθ,dcoprime为互质阵列在某角度下测向的克拉美罗界,dcoprime为互质阵列中阵元位置;所述步骤二中构造测向分辨力性能评价标准;具体过程为:采用天线方向图主瓣宽度来反应信号分辨力,天线方向图Fθ表示为:Fθ0=WHaθ06WCBF=aθ7其中,W为波束形成器的权值向量,WH为W的共轭转置,aθ0为角度θ0对应的导向矢量,θ0在[0°,360°]之间遍历,WCBF为常规波束形成所选用的权重向量,aθ为目标信号角度θ对应的导向矢量,θ为目标信号角度;取天线方向图中-3dB谱峰值对应的角度与3dB谱峰值对应的角度的差值,作为方向图主瓣宽度;选取互质阵列的波束宽度作为参考值,将待优化阵列的波束宽度与参考值的比值作为奖励函数r2: 式8中,BW3dbθ,d为待优化阵列在某角度下测向的方向图主瓣宽度,d为待优化阵列阵元坐标,θ为目标信号角度,BW3dbθ,dcoprime为互质阵列在某角度下测向的方向图主瓣宽度,dcoprime为互质阵列阵元位置;所述步骤三中构造阵列物理模型评价标准;具体过程为:在天线的实际摆放中受到物理性质的限制,体现在两部分:首先阵元间距应大于天线物理直径,其次阵元位置不应超过阵元允许摆放的最大范围;奖励函数r3如下: 式9中,dmax为阵元坐标最大值,dmin为阵元坐标最小值,Δd为阵元间距最小值,dTX为天线物理直径,d′为阵元允许摆放的最大范围;所述步骤四中根据步骤一、步骤二和步骤三,构造阵列整体评价标准,对整体评价标准的目标函数进行求解,输出优化后的阵列摆放方式;具体过程为:基于步骤一构造的测向精度性能评价标准、步骤二构造的测向分辨力性能评价标准和步骤三构造的阵列物理模型评价标准,构造整体评价标准,整体评价标准的目标函数R如下: 式10中,α1与α2为加权系数;对整体评价标准的目标函数进行求解,输出优化后的阵列摆放方式;所述对整体评价标准的目标函数进行求解,输出优化后的阵列摆放方式;具体过程为:步骤四一:初始化阵列状态;具体过程为:一维阵列中共计N个阵元,为保证最大阵列间距,则需要将两个阵元位置固定,故需要优化的阵元数量为N-2,将阵元位置坐标设为优化目标,则阵列状态表示为:d=[0,d1,...,dN-2,dmax]11其中d表示待优化的阵列中阵元坐标;d1表示待优化的阵列中第1个阵元与原点处阵元间距,dN-2表示待优化的阵列中第N-2个阵元与原点处阵元间距,dmax表示阵元坐标最大值;步骤四二:步骤四二一:设置最大训练次数;设置最大探索次数;步骤四二二:将步骤四一中的N-2个阵元坐标作为SAC算法的初始状态st,初始化得分;步骤四二三:初始化阵列移动方式at;步骤四二四:根据当前阵元位置st与当前阵列移动方式at计算下一个阵元位置st+1、阵列位置的评价奖励值;步骤四二五:判决经验池是否已满,若不满则将当前阵列移动方式at、当前阵元位置st、修正后的阵元位置st+1、评价奖励值fitnessd存入经验池,执行步骤四二三:若经验池已满,更新本次探索的得分,得分为奖励值的累加;执行步骤四二六:步骤四二六、构建SAC网络,训练SAC网络,获得训练好的SAC网络;步骤四二七、探索次数加1,判断是否小于最大探索次数,若是,重新执行步骤四二三至步骤四二七;若否,迭代次数加1,判断是否小于最大迭代次数,若是,重新执行步骤四二二至步骤四二七,若否,结束,输出为优化后的阵列摆放方式;所述步骤四二四中评价奖励值计算公式为:fitnessd=R12其中,R为式10中目标函数,fitnessd为阵列位置d的评价奖励值,d为式11中阵列的坐标位置;所述步骤四二六中构建SAC网络,训练SAC网络,获得训练好的SAC网络;具体过程为:所述SAC网络包括整体价值网络、策略网络、Q网络;所述整体价值网络由价值网络与目标价值网络组成;所述价值网络输入为待优化阵列位置,价值网络为2层全连接层,价值网络输出维度与阵列移动方式维度相同;所述目标价值网络参数通过深拷贝价值网络得到,输入为待优化阵列位置,目标价值网络为两层全连接层,目标价值网络输出维度与阵列移动方式维度相同;将价值网络与目标价值网络的输出软更新,输出当前状态的价值函数;所述策略网络由策略均值网络与策略均方差对数网络组成;所述策略均值网络与策略均方差对数网络输入均为待优化阵列位置;所述策略均值网络与策略均方差对数网络均为三层全连接层;二者的共用前两层神经网络,二者第三层神经网络各自独立;所述策略均值网络输出维度与阵列移动方式维度相同;所述策略均方差对数网络输出维度与阵列移动方式维度相同;将策略均方差对数网络输出进行指数运算得到均方差数据,根据均方差数据和策略均值网络的输出生成高斯分布的数据,获得策略网络整体输出,得到动作;所述Q网络由Q网络1与Q网络2组成;将整体价值网络输出的当前状态的价值函数和策略网络输出的动作进行拼接,拼接后的矩阵作为Q网络1和Q网络2的输入;所述Q网络1与Q网络2均为三层全连接层;所述Q网络1与Q网络2输出维度均为一维,取Q网络1输出与Q网络2输出中的较小值作为Q网络的最终输出,此输出代表此轮奖励值;SAC网络更新损失函数分别为:Loss温度系数=-αlogπat|st-α*entropy13 Loss策略网络=αlogπfφεt;st|st-Qθst,fφεt;st15 式13为环境温度系数损失函数;式14为Q网络损失函数;式15为策略网络损失函数;式16为整体价值网络软更新权重;其中entropy为目标熵;st为当前阵元位置,at为当前阵列位置的变化方式,πat|st为对于当前阵元位置与当前阵列移动方式的策略网络输出,为对于当前阵元位置与当前阵列移动方式的Q网络输出,rst,at为当前阵元位置下采用当前阵列移动方式时的奖励值,为对于下一个阵元位置与下一个阵列移动方式的Q网络输出,πat+1|st+1为对于下一个阵元位置与下一个阵列移动方式的策略网络输出,γ为奖励值折损因子,st+1为下一个阵元位置,at+1为下一个阵元位置的变化方式,为目标价值网络输出,θi为价值网络输出,τ为软更新权重;fφεt;st为根据均方差数据和策略均值网络的输出生成高斯分布的数据,得到策略网络整体输出;εt为均方差,α为温度系数;*为乘法符号,πfφεt;st|st为对于当前阵元位置与策略网络输出的阵列移动方式的奖励值;直至收敛,获得训练好的SAC网络。

全文数据:

权利要求:

百度查询: 哈尔滨工程大学 一种基于SAC算法的一维非均匀阵列设计方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。