买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及语音识别技术领域,尤其涉及一种基于多模态深度学习语言行为对话策略方法,该方法包括以下步骤:获取用户输入一个或多个语音数据组;将语音数据组输入预训练的语音识别网络中,对语音数据组进行组内注意力机制分析,得到组内上下文向量,获取语音数据组的位置编码,并基于位置编码和组内上下文向量,对语音数据组进行组间注意力机制分析,得到全局上下文向量;根据全局上下文向量得到识别信息,进而计算识别置信度,基于识别置信度将文本模态和图像模态各自对应的特征数据与该识别信息进行多模态融合,确定用户输入的复杂语音文本的目标识别结果,提高目标识别结果的可靠性和精准度。
主权项:1.一种基于多模态深度学习语言行为对话策略方法,其特征在于,所述基于多模态深度学习语言行为对话策略方法包括:获取用户输入的复杂语音文本,并将所述复杂语音文本进行分组,得到一个或多个语音数据组;将所述语音数据组输入预训练的语音识别网络中,根据所述语音识别网络对所述语音数据组进行组内注意力机制分析,确定所述语音数据组的组内上下文向量;获取每个所述语音数据组的位置编码,并基于所述位置编码和所述组内上下文向量,对所述语音数据组进行组间注意力机制分析,得到所述复杂语音文本对应的全局上下文向量;根据所述全局上下文向量,得到所述语音识别网络输出的识别信息,并根据所述识别信息获取识别置信度,所述识别信息包括所述语音数据的校验概率、一个或多个候选识别结果以及每个所述候选识别结果的预测概率;获取文本模态和图像模态各自对应的特征数据,基于所述识别置信度,将所述识别信息与所述文本模态和所述图像模态各自对应的特征数据进行多模态融合,确定所述用户输入的复杂语音文本的目标识别结果;其中所述文本模态的特征数据基于用户输入文本提取得到,所述图像模态的特征数据基于用户提供的图像提取得到;所述根据所述语音识别网络对所述语音数据组进行组内注意力机制分析,确定所述语音数据组的组内上下文向量,包括:根据所述语音识别网络对所述语音数据组进行编码处理,得到所述语音数据组的分组编码,所述分组编码包括所述语音数据组中每个数据元素的隐藏状态;根据所述语音数据组中每个数据元素的隐藏状态和所述语音识别网络中的第一可学习参数组,确定对应数据元素的注意力分数;对所述数据元素的注意力分数进行归一化处理,得到对应数据元素的注意力权重;根据所述语音数据组中每个数据元素的注意力权重和隐藏状态进行加权求和,得到所述语音数据组的组内上下文向量;所述基于所述位置编码和所述组内上下文向量,对所述语音数据组进行组间注意力机制分析,得到所述复杂语音文本对应的全局上下文向量,包括:根据所述位置编码、所述组内上下文向量和所述语音识别网络中的第二可学习参数组,确定对应所述语音数据组的注意力分数;对所述语音数据组的注意力分数进行归一化处理,得到所述语音数据组的注意力权重;根据所述语音数据组的注意力权重对所述语音数据组的组内上下文向量进行加权,得到所述语音数据组的加权向量;计算所有所述语音数据组的加权向量的求和,为所述复杂语音文本对应的全局上下文向量;所述基于所述位置编码和所述组内上下文向量,对所述语音数据组进行组间注意力机制分析,得到所述复杂语音文本对应的全局上下文向量,包括:获取所述语音数据组的结构编码,并根据所述位置编码、所述结构编码、所述组内上下文向量以及所述语音识别网络中的第三可学习参数组,确定对应所述语音数据组的注意力分数;对所述语音数据组的注意力分数进行归一化处理,得到所述语音数据组的注意力权重;根据所述语音数据组的注意力权重对所述语音数据组的组内上下文向量进行加权,得到所述语音数据组的加权向量;计算所有所述语音数据组的加权向量的求和,为所述复杂语音文本对应的全局上下文向量。
全文数据:
权利要求:
百度查询: 广东数业智能科技有限公司 一种基于多模态深度学习语言行为对话策略方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。