一种多模态语音唤醒方法、装置、设备及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：镁佳(北京)科技有限公司

摘要：本发明涉及自动驾驶技术领域，公开了本发明提供了一种多模态语音唤醒方法、装置、设备及介质，方法包括：获取语音数据和视觉数据；将预设位置的语音数据和视觉数据输入预设多模态唤醒模型，得到第一输出结果和第二输出结果；根据第一输出结果判断预设位置的语音数据和视觉数据是否匹配，根据第二输出结果判断语音数据是否满足预设唤醒条件；若预设位置的语音数据和视觉数据匹配，且语音数据满足预设唤醒条件，则唤醒车机系统。本发明提供的多模态语音唤醒方法，通过判断预设位置的语音数据与视觉数据是否匹配，且语音数据是否满足预设唤醒条件，来唤醒车机系统，提升了唤醒的准确性，同时只有预设位置的人才能唤醒，保证了唤醒的安全性。

主权项：1.一种多模态语音唤醒方法，其特征在于，所述方法包括：获取语音数据和视觉数据；将预设位置的语音数据和视觉数据输入预设多模态唤醒模型，得到第一输出结果和第二输出结果；所述预设多模态唤醒模型的训练过程包括：获取第一数据、第二数据、第三数据，所述第一数据包括：互相匹配的第一语音数据和第一视觉数据，且所述第一语音数据中的内容为预设唤醒词，所述第二数据包括：非匹配的第二语音数据和第二视觉数据，所述第三数据包括：互相匹配的第三语音数据和第三视觉数据，但所述第三语音数据中的内容不是预设唤醒词；将所述第一数据、第二数据、第三数据分别输入预设编码器，得到第一编码数据、第二编码数据、第三编码数据；将所述第一编码数据、第二编码数据、第三编码数据分别输入预设特征提取模块，得到第一特征序列、第二特征序列、第三特征序列；将所述第一编码数据、第二编码数据、第三编码数据分别输入预设模态融合模块，得到第一输出数据、第二输出数据、第三输出数据；根据所述第一编码数据、第二编码数据、第一特征序列、第二特征序列、第一输出数据、第三输出数据，分别进行多任务学习，得到预设多模态唤醒模型，包括：对所述第一编码数据、第二编码数据进行预设相似度学习，增加所述第一编码数据中第一语音数据与第一视觉数据的特征差异，减小所述第二编码数据中第二语音数据与第二视觉数据的特征差异；对所述第一特征序列、第二特征序列进行预设模态匹配学习，为第一特征序列设置匹配标签，为所述第二特征序列设置非匹配标签；对所述第一输出数据、第三输出数据进行预设唤醒目标学习，使第一输出数据为唤醒，第三输出数据为拒识；根据所述第一输出结果判断所述预设位置的语音数据和视觉数据是否匹配，根据所述第二输出结果判断所述语音数据是否满足预设唤醒条件；若所述预设位置的语音数据和视觉数据匹配，且所述语音数据满足预设唤醒条件，则唤醒车机系统。

全文数据：

权利要求：

百度查询：镁佳(北京)科技有限公司一种多模态语音唤醒方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于重载群组列车群组通信的列车运行预测方法、系统及电子设备

下一篇：一种用于光伏板边框的铝合金型材

相关技术

一种基于重载群组列车群组通信的列车运行预测方法、系统及电子设备

一种用于光伏板边框的铝合金型材

一种靶向铜绿假单胞菌凝集素的仿生多功能纳米制剂及其制备方法和应用

一种带有短路检测的连接器插针机

镭雕装置

一种1.0-2.0mm厚度热基镀锌原料的生产方法

机载光电设备反射镜均热化控温装置

一种鱼类产卵行为与生态水文指标响应关系量化方法

一种可组装与分离的混合装置及其使用方法

一种养生保健酒

一种可溯源可监控的监狱针车分发装置及系统

一种道路靶向安全警示系统、其使用方法及多个系统之间建立私有局域网的使用方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种多模态语音唤醒方法、装置、设备及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务