广东省教育研究院李海东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东省教育研究院申请的专利一种基于强化学习的自适应抢答优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118780426B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410822543.5,技术领域涉及:G06Q10/04;该发明授权一种基于强化学习的自适应抢答优化方法及系统是由李海东;曾令鹏;张朝晖;刘胜;李科景设计研发完成,并于2024-06-24向国家知识产权局提交的专利申请。
本一种基于强化学习的自适应抢答优化方法及系统在说明书摘要公布了:本发明提出了一种基于强化学习的自适应抢答优化方法及系统,方法包括:利用传感器收集学生的多模态抢答信号,进行预处理得到目标信号,进行特征提取和融合;边缘计算节点收集目标信号,形成多模态特征数据,对多模态特征数据进行特征融合,并构建强化学习模型对抢答信号进行优先级排序;动态调整抢答信号处理顺序和权重;优化抢答信号的传输路径,对光学自适应光学技术产生的光信号进行加密和解密传输;中央处理器接受解密后的光信号并进行处理和分析,将分析结果发送至各边缘计算节点和用户。本发明提出了一种基于强化学习的自适应光学抢答公平性优化系统,有效解决了现有课堂抢答系统在信号传输延迟、公平性和安全性方面存在的问题。
本发明授权一种基于强化学习的自适应抢答优化方法及系统在权利要求书中公布了:1.一种基于强化学习的自适应抢答优化方法,其特征在于,方法包括以下步骤: S1、利用传感器收集学生的多模态抢答信号,并对抢答信息进行预处理得到目标信号,传感器对目标进行特征提取和融合,得到统一的数据集;其中,所述多模态抢答信号包括语音信号、视频信号和按键信号; S2、边缘计算节点收集目标信号,形成多模态特征数据,边缘计算节点对多模态特征数据进行特征融合得到融合后的多模态特征向量,并构建强化学习模型对抢答信号进行优先级排序; S3、引入强化学习算法动态调整抢答信号处理顺序和权重; S4、采用自适应光学技术结合动态波前校正技术优化抢答信号的传输路径,并对光学自适应光学技术产生的光信号进行加密和解密传输; S5、中央处理器接收解密后的光信号并进行处理和分析,将分析结果发送至各边缘计算节点和用户; 其中,所述S3具体包括: S301、构建强化学习环境: 构建强化学习环境的状态空间St,其中,状态空间St包括降维后的特征向量Fpcat和当前时间步的延迟信息Dlatencyt,表示如下: St=[Fpcat,Dlatencyt] 定义动作空间At,包括对抢答信号的优先级排序和权重调整,表示如下: At=[Ppriorityt,Wweightt] 其中,Ppriorityt表示当前时间步的优先级排序,Wweightt表示当前时间步的权重调整; S302、设计奖励函数: 设第i个学生的响应时间为Tit,定义响应时间公平性指标FairTimeAt为: 其中,表示所有学生的平均响应时间,N表示学生总数; 设备差异公平性指标FairEquipAt定义为: 其中,表示所有学生的平均设备性能,设备性能为Pit; 加入响应时间和设备差异,定义总的公平性指标FairnessAt为: FairnessAt=γ1·FairTimeAt+γ2·FairEquipAt 其中,γ1和γ2表示平衡响应时间和设备差异的权重参数; 实时性指标RealTimeAt用于衡量系统的响应速度,定义实时性指标为: RealTimeAt=-maxi∈{1,2,…,N}Tit-Tstartt 其中,Tstartt表示当前时间步的开始时间; 加入公平性和实时性,设计综合奖励函数Rt为: Rt=αR·FairnessAt+βR·RealTimeAt 其中,αR和βR表示权重参数,用于平衡公平性和实时性的影响; 所述边缘计算节点的强化学习模型的强化学习环境构建如下: 设计奖励函数rt,评估每个动作的效果,表示如下: rt=αR·Fairnessat+βR·RealTimeat 其中,αR和βR为权重参数,Fairnessat为当前动作的公平性指标,RealTimeat为实时性指标; 采用深度Q网络算法进行训练,定义Q值函数Qs,a,表示如下: Qst,at=Qst,at+ηQ[rt+γQmaxa′Qst+1,a′-Qst,at] 其中,ηQ为学习率,γQ为折扣因子; 根据强化学习算法输出的动作at,对当前时刻的信号进行优先级排序,设优先级排序函数为Π,计算如下: Fsortedt=ΠFpcat,at 其中,Fpcat表示降维后的特征向量,Fsortedt表示输出的优先级序列; 在所述S3中,还包括: S303、采用强化学习算法动态调整信号处理顺序和权重: 定义Q值函数QS,A,表示在状态S采取动作A所得到的预期奖励: 其中,γR表示折扣因子,A′表示下一时间步的动作; 采用深度Q网络算法对Q值函数进行训练和更新;其中,Q值的更新公式为: QSt,At=QSt,At 其中,ηQ表示学习率; 用DNN网络拟合Q值函数;其中,神经网络的输入为状态St,输出为每个动作的Q值,表示如下: 其中,θ表示神经网络的参数,通过反向传播算法进行优化,表示由DNN网络拟合得到的Q值函数,即拟合Q值; S304、在状态空间中加入设备性能信息和在动作空间中引入时间窗口机制;其中,状态空间St定义为: St=[Fpcat,Dlatencyt,Pdevicet] 其中,Pdevicet表示设备性能; 动作空间At定义为: At=[Ppriorityt,Wweightt,Twindowt] 其中,其中,Twindowt表示时间窗口参数; S305、在每个时间步,使用∈-贪心策略选择动作;其中,以∈的概率随机选择动作,以1-∈的概率选择当前Q值最大的动作,表示如下: 根据选择的动作At对当前时间步的信号进行优先级排序和权重调整,表示如下: Fweightedt=Fsortedt′⊙Wweightt 其中,Π表示优先级排序函数,⊙表示元素逐点相乘操作; S306、将每次交互的St,At,Rt,St+1存储到经验回放池中,每次训练时,从经验回放池中随机抽取一个小批量Si,Ai,Ri,Si+1进行训练,表示如下: 其中,表示从经验回放池中抽取样本Si,Ai,Ri,Si+1进行期望计算,Lθ为损失函数,通过最小化损失函数来优化网络参数θ; 采用随机梯度下降算法更新网络参数θ,表示如下: 其中,ηθ为随机梯度下降算法的学习率,为损失函数Lθ对网络参数θ的梯度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东省教育研究院,其通讯地址为:510062 广东省广州市广卫路14号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。