首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于模仿学习和强化学习的码率自适应选择方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工业大学

摘要:一种模仿学习和强化学习的码率自适应选择方法,根据视频流在服务器和客户端之间传输的过程构建视频流传输系统模型;构建行为克隆网络模型、PPO策略网络模型和PPO价值网络模型;使用专家码率自适应算法生成专家数据,根据专家数据对行为克隆网络进行有监督地预训练,保存预训练后行为克隆网络的参数;将所述预训练后行为克隆网络的参数作为PPO策略网络参数的初始值,使用近端策略优化算法对PPO策略网络进行优化训练以得到最优的码率选择策略。本发明能够在5G网络中实现更高的用户体验质量,并且收敛速度快。

主权项:1.一种基于模仿学习和强化学习的码率自适应选择方法,其特征在于,所述方法包括以下步骤:S1、根据视频流在服务器和客户端之间传输的过程构建视频流传输系统模型;S2、构建行为克隆网络πθ模型、PPO策略网络模型和PPO价值网络Vψ模型;S3、根据步骤S1中的视频流传输系统模型,获得行为克隆网络πθ的当前状态si,并利用专家码率自适应算法,获得专家码率选择动作aEi,将si,aEi作为专家数据存储于经验池B1;S4、将步骤S3中获得的当前状态si输入到行为克隆网络πθ生成学生码率选择动作ai,并将ai作用于步骤S1中的视频流传输系统模型生成下一个状态si+1,重复执行步骤S3,直至步骤S3中所述经验池B1中专家数据的数量达到经验池B1容量的10%,进入步骤S5;S5、从步骤S4中获得的经验池B1中随机采样小批量专家数据,基于所述小批量专家数据,采用均方误差函数作为损失函数,并使用Adam优化算法对行为克隆网络πθ进行预训练,保存预训练后行为克隆网络πθ的网络参数θ;S6、将步骤S5中获得的行为克隆网络πθ的网络参数θ作为PPO策略网络参数的初始值,并构建用户体验质量函数;S7、根据步骤S1中的视频流传输系统模型,获得PPO策略网络的当前状态si,将si输入到PPO策略网络生成码率选择动作ai,将ai作用于步骤S1中的视频流传输系统模型生成下一个状态si+1;之后,根据当前状态si和码率选择动作ai,利用用户体验质量函数,获得奖励值vi;将si,ai,vi,si+1作为经验样本存储于经验池B2;S8、重复执行步骤S7直到步骤S7中所述的经验池B2中经验样本的数量达到经验池B2容量的10%,进入步骤S9;S9、从步骤S8中获得的经验池B2中随机采样小批量经验样本,根据PPO算法,采用截断替代目标函数优化训练PPO策略网络并采用均方误差函数作为损失函数优化训练PPO价值网络Vψ,直至得到最优的码率选择策略

全文数据:

权利要求:

百度查询: 浙江工业大学 基于模仿学习和强化学习的码率自适应选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术