买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明属于通信调制领域,具体涉及一种基于强化学习的短波自适应调制方法。所述方法利用短波探测系统采用频谱感知的方法对信道进行质量评估,使用线性调频信号对信道的多径时延、多普勒频偏以及信噪比等参数进行估计,并将每种参数值及其影响权重加权作为信道状态,然后映射为强化学习的状态空间,本发明可以在没有信道先验信息或系统模型的情况下工作,根据可用的信道状态和相应的奖励来训练最优的动作策略,强化学习在解决短波高动态场景下信道快速变化的问题上具有优势,因此可以与短波信道进行交互学习,从而在保证通信质量的前提下最大化传输率。
主权项:1.一种基于强化学习的短波自适应调制方法,其特征在于,所述方法包括:1设定短波通信系统的状态空间、动作空间和奖励空间;初始化经验回放池、评估网络、目标网络、置信区间上界UCB网络;所述状态空间为线性调频信号对短波信道的信噪比、多普勒频移和时延的估计加权值的集合,所述动作空间为调制方式的集合,每一种调制方式为一种动作;所述奖励空间记载衡量给定状态下各调制方式的价值,将选择调制方式下的误码率作为奖励回报;2将当前信道状态输入到评估网络,计算奖励方差和置信度值,选择使置信度值最大的动作作为调制方式;3发射端按照选择的动作调整调制方式;发射信号经过短波信道后到达接收端,在接收端,系统根据当前执行的动作计算出相应的奖励值;4将当前时刻的信道状态、所执行的动作、所获得的奖励值以及下一时刻的信道状态,组合成一组完整的样本,随后被存入经验回放池中;5在当前迭代过程中,判断当前经验回放池是否存满数据,如果存满数据,此时进入进行网络参数的更新操作,将评估网络的参数复制给目标网络;如果余数不为0,则不满足网络更新的条件,此时更新当前的信道状态,并返回到2继续下一轮的迭代过程;6在经验回放池当中随机性的选择n组样本,并将它们作为训练集输入,计算当前迭代次数对当前目标网络更新周期的取余结果是否为0;若取余结果是0,则将评估网络的当前参数复制到目标网络中,以更新目标网络;7重复步骤1~6,直至发射端不再调制信号或者达到最大迭代次数T,最终得到强化学习的最佳调制策略。
全文数据:
权利要求:
百度查询: 重庆邮电大学 基于强化学习的短波自适应调制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。