深圳市北科瑞声科技股份有限公司陈诚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市北科瑞声科技股份有限公司申请的专利基于交互页面的语音控制方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114706552B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111552851.3,技术领域涉及:G06F3/16;该发明授权基于交互页面的语音控制方法、装置、设备及存储介质是由陈诚;黄石磊;程刚设计研发完成,并于2021-12-17向国家知识产权局提交的专利申请。
本基于交互页面的语音控制方法、装置、设备及存储介质在说明书摘要公布了:本发明涉及语音处理技术,揭露一种基于交互页面的语音控制方法,包括:获取显示图像,对显示图像进行图像分割,得到多个子图;生成显示图像及多个子图分别对应的特征码,并判断预设的数据表中是否存在所述特征码,根据判断结果获取显示图像或多个子图包含的操作文本,并将获取到的多个所述操作文本以缓存形式存储在操作文本缓存库中;接收针对所述交互页面的控制语音,将所述控制语音转化为控制文本;确定所述操作文本缓存库中与所述控制文本的匹配度满足匹配条件的操作文本为目标操作文本,以及控制所述交互页面执行所述目标操作文本对应的操作。本发明还提出一种基于交互页面的语音控制装置、设备以及介质。本发明可以提高语音控制的效率。
本发明授权基于交互页面的语音控制方法、装置、设备及存储介质在权利要求书中公布了:1.一种基于交互页面的语音控制方法,其特征在于,所述方法包括: 获取交互页面的显示图像,对所述显示图像进行图像分割,得到多个子图;所述对所述显示图像进行图像分割,得到多个子图,包括:利用预构建的分割网络对所述显示图像进行多重特征提取,得到所述显示图像的包含五种不同尺寸的多重图像特征;从预设的分割框图中选择与所述五种不同尺寸的多重图像特征分别对应的分割框图,并根据所选择的多个分割框图多次框选所述显示图像,将框选得到的不同图像作为多个子图;其中,所述分割网络为ResNet50网络并包含FPN特征金字塔结构,所述多重图像特征为多个不同尺寸的图像特征; 生成所述显示图像及多个所述子图分别对应的特征码,并判断预设的数据表中是否存在所述显示图像及多个所述子图分别对应的特征码,其中,所述生成所述显示图像及多个所述子图分别对应的特征码包括:将所述显示图像和所述多个子图压缩为预设尺寸,得到多个压缩图像,并对所述多个压缩图像进行灰度化;计算所述多个压缩图像中每一个像素点的灰度特征值,并将所述灰度特征值组合得到所述显示图像和所述多个子图的特征码,所述灰度特征值用于表示相邻像素点的灰度差异值; 根据判断结果获取所述显示图像或多个所述子图包含的操作文本,并将获取到的多个所述操作文本以缓存形式存储在操作文本缓存库中; 接收针对所述交互页面的控制语音,将所述控制语音转化为控制文本,包括:将语音特征向量输入声学模型得到音素信息,将音素信息按单个音、两个音、三个音、四个音的方式划分为多个音素片段,并逐个在预设词库中检索;将在所述词库中检索到的音素片段所对应的文本作为所述控制文本; 确定所述操作文本缓存库中与所述控制文本的匹配度满足匹配条件的操作文本为目标操作文本,以及控制所述交互页面执行所述目标操作文本对应的操作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市北科瑞声科技股份有限公司,其通讯地址为:518036 广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园3栋1201-6;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励