买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于情感意图驱动的人机交互方法。针对现有的人机交互过程中,服务机器人缺少智能性、主动性,处于被动地位,提出了一种新的交互策略,具体包括1数据采集与增强;2使用迁移学习训练ResNet‑18作为特征提取网络、评估网络和目标网络;3使用增强后数据集训练特征提取网络,并把除FC层的网络参数迁移到评估网络和目标网络中;4使用摄像头采集实时用户图像,再输入到DQN网络中进行评估学习。通过用户对机器人所做动作的表情反馈设置奖励,并通过梯度下降更新评估网络的参数。本方法可快速收敛DQN网络,机器人通过用户的表情推断用户的情绪意图,做出交互动作,提高机器人的主动性、智能性。
主权项:1.一种基于情感意图驱动的人机交互方法,其特征在于:具体包括以下步骤:步骤一、数据收集与网络训练收集多张不同表情的人脸图片;对人脸图片进行随机数据增强,然后调整至统一大小,再输入到ResNet-18网络中,对ResNet-18网络的权重参数wr进行训练;步骤二、构建深度强化学习网络构建深度强化学习网络DQN,使用ResNet-18网络作为DQN的评估网络QeS,a,w与目标网络QtS,a,w′;随机初始化网络参数后,将步骤一训练后的权重参数wr迁移到评估网络QeS,a,w与目标网络QtS,a,w′的权重w、w′中;步骤三、深度强化学习训练s3.1、设置包括多种动作的集合A,将机器人使用摄像头实时捕捉的视频裁剪为图片,作为评估网络QeS,a,w的输入状态St,输出目标动作的估计值;s3.2、将输入状态St输入到目标网络QtS,a,w′,得到各个目标动作的估计值,利用ε-greedy策略控制机器人做出集合A中的动作a: ε为贪婪值;判断人脸对于动作a的响应状态St+1,并根据强化学习训练的回报函数reward计算奖励r: 将第n次学习的转移信息存入经验回放记忆池D中,如果学习次数n大于经验回放记忆池D的容量M,则使用先进先出的规则删除最早保存的转移信息,并把最新的转移信息加入经验回放记忆池D;s3.3、循环s3.1、3.2多次,当经验回放记忆池D中样本的个数多于设置的采样个数时,对经验回放记忆池D中的转移信息进行随机采样batch_size个样本,并计算采样样本中目标的估计值yj: 其中,0≤j≤batch_size,γ为折扣因子;max表示求取值函数的最大值,argmax表示求取值函数在状态S下最大估计值对应的目标;最终状态为设置的停止服务的状态;s3.4、固定评估网络QeS,a,w中1~15层卷积的参数,执行梯度下降优化策略对16~20层卷积的权重w进行微调;s3.5、将动作响应状态St+1作为新的状态输入到评估网络QeS,a,w和目标网络QtS,a,w′中,并根据更新步数k将梯度下降优化后评估网络QeS,a,w的权重w赋给目标网络QtS,a,w′;步骤四、人机交互在日常使用中,使用机器人摄像头拍摄人脸图像,裁剪至固定大小后,作为状态St输入到步骤三中深度强化学习训练后的网络中进行值估计,并驱动机器人做出能获得最大奖励的动作,然后将此次的状态St、目标动作a、响应状态St+1以及获得的奖励r存储并更新至经验回放记忆池D,完成一次交互。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于情感意图驱动的人机交互方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。