深圳市艾科维达科技有限公司朱朋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市艾科维达科技有限公司申请的专利一种基于人工智能的用于电视棒的语音识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119854550B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510314921.3,技术领域涉及:H04N21/422;该发明授权一种基于人工智能的用于电视棒的语音识别方法及系统是由朱朋;姜云燕;卢锦仁;覃允炎;姜绍俊设计研发完成,并于2025-03-18向国家知识产权局提交的专利申请。
本一种基于人工智能的用于电视棒的语音识别方法及系统在说明书摘要公布了:本发明提供一种基于人工智能的用于电视棒的语音识别方法及系统,属于语音识别领域;解决了电视棒语音识别效率低的问题;具体如下:步骤S1:获取操作语音,计算每条测试语音的MFCC系数序列;步骤S2:计算每条测试语音的LPCC系数序列,并结合MFCC系数序列构建语音识别模型,判断操作语音是否在模型中存在输出;若存在,则将操作语音转化为电视棒指令;若不存在,则获取历史应用使用数据;步骤S3:分析目标用户的历史应用使用数据,反向推理操作语音的电视棒指令;本发明通过对用户操作电视棒时产生的语言进行获取、分析和处理,提高了电视棒的语音识别和指令生成的能力。
本发明授权一种基于人工智能的用于电视棒的语音识别方法及系统在权利要求书中公布了:1.一种基于人工智能的用于电视棒的语音识别方法,其特征在于,所述方法包括: 步骤S1:获取目标用户的操作语音和测试者的测试语音;对测试语音进行预加重、加窗和傅里叶变换的一次处理,计算每条测试语音的MFCC系数序列; 步骤S2:对测试语音进行同态和倒谱处理的二次处理,计算每条测试语音的LPCC系数序列,并结合每条测试语音的MFCC系数序列构建语音识别模型;将操作语音作为语音识别模型的输出,判断语音识别模型是否存在输出;若存在,则将操作语音转化为电视棒指令,跳过步骤S3; 若不存在,则获取当前时间和目标用户的历史应用使用数据,进入步骤S3; 步骤S3:获取当前时间和电视棒可控应用数量;分析目标用户的历史应用使用数据,构建目标用户的应用使用模型;获取目标用户正在使用或正在关闭的应用名,根据应用使用模型反向推理操作语音的电视棒指令; 所述步骤S2的具体步骤为: 步骤S21:对测试语音进行同态和倒谱处理,得到测试语音信息的LPCC系数; 步骤S22:将第1至第vn条测试语音信息转化为测试语音文本,记作文本wd1~wdvn; 按测试语音文本—测试语音信息的MFCC系数序列—测试语音信息的LPCC系数序列的格式,汇总测试语音信息作为样本集; 步骤S23:以CNN模型为语音识别模型的基础模型,定义对基础模型进行监督训练的训练步骤: 步骤S231:将第1至第vn条对应的MFCC系数序列作为集合CMF; 将第1至第vn条对应的LPCC系数序列作为高维数组,整合得到集合CLP; 步骤S232:融合集合Cmf与集合Clp,得到电视棒操作指令声纹特征序列集,记作集合CC; 步骤S233:将文本wd1~wdvn与集合CC融合,得到测试语音的特征集,记作集合α; 将基础模型中的状态数设置为4,高斯元数设置为3; 步骤S234:将集合α带入基础模型中,进行迭代直至集合α对应的测试语音都被基础模型输出; 定义语音识别模型收敛的判定条件:任意一条测试语音被错误识别的概率小于1×10-3; 所述步骤S23的后续步骤如下: 步骤S24:定义对基础模型进行无监督训练的训练步骤: 步骤S241:获取集合CC,将集合CC作为训练集1,以测试语音文本作为训练集2;使用K-means聚类算法对基础模型进行迭代,直至训练集1中的元素与训练集2中的元素同时输出且输出元素对应; 步骤S242:定义语音识别模型收敛的判定条件:同一条测试语音被前后两次连续识别输出的概率差值小于1×10-4; 步骤S25:对基础模型进行监督训练和无监督训练;直至基础模型的监督训练和无监督训练的输出结果相同,得到语音识别模型; 将操作语音作为语音识别模型的输入,判断模型是否存在输出; 若存在,则将操作语音转化为电视棒指令,跳过步骤S3; 若不存在,则获取当前时间和目标用户的历史应用使用数据,进入步骤S3; 所述步骤S21的具体步骤如下: 步骤S211:对第1条测试语音信息进行同态和倒谱处理; 获取第1条测试语音的频域信息语音v4作为信息E;获取每个信息E对应的频率fx1~fxFn; 步骤S212:对第1至第Fn个时间戳对应的信息E进行Z变换,得到XZl~XZFn; Z变换的函数表达式为: 其中,fxl表示第l个时间戳对应信息E的频率;ZXl表示fxl的Z变换输出; zzl表示fxl对应的复数变量: vc表示声速,ω表示fxl对应的相位: ω=arctan[vc×fxlfd];fd表示分帧时长; 步骤S213:对第1至第Fn个时间戳对应的信息E进行对数转换,得到lnZX1~lnZXFn; 对数转换的函数表达式为: 其中,lnZXl表示对ZXl进行对数转换的输出;fxq表示第q个时间戳对应信息E的频率;zzq表示fxq对应的复数变量; 对lnZX1~lnZXFn进行逆Z变换处理,将第1至第Fn个时间戳对应的信息E从频域信息转化为时域信息,得到ts1~tsFn; 所述步骤S213的后续步骤如下: 步骤S214:对ts1~tsFn进行倒谱处理,得到第1至第Fn个时间戳对应的信息E的LPC系数,记作ce1~ceFn; 倒谱处理的函数表达式为: 其中,tsm表示第m个时间戳对应信息E的时域信息,fxl-m+1表示第l-m+1个时间戳对应信息E的频率; 使用离散余弦变换算法,把ce1~ceFn从时域信息转为频域信息,得到第1条测试语音信息的LPCC系数序列; 步骤S215:处理第2至第va条测试语音信息,得到第2至第va条测试语音信息的LPCC系数序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市艾科维达科技有限公司,其通讯地址为:518106 广东省深圳市光明区马田街道合水口社区第四工业区第四期第五栋101、第五栋厂房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励