南方电网人工智能科技有限公司吴石松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南方电网人工智能科技有限公司申请的专利混合语音识别文本的标点预测方法、装置、计算机设备、可读存储介质和程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119106658B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411038721.1,技术领域涉及:G06F40/111;该发明授权混合语音识别文本的标点预测方法、装置、计算机设备、可读存储介质和程序产品是由吴石松;梁寿愚;卢志良;陈柔伊;董召杰;李轩昂;李成;李晋伟;陈骞;林全郴;郑桦;冯勤宇;赵必美;梁凌宇;王鹏凯设计研发完成,并于2024-07-31向国家知识产权局提交的专利申请。
本混合语音识别文本的标点预测方法、装置、计算机设备、可读存储介质和程序产品在说明书摘要公布了:本申请涉及一种混合语音识别文本的标点预测方法、装置、计算机设备、可读存储介质和程序产品。通过语种文本识别模型识别语音中的各个语种对应的各个文本段,通过多个语种的文本段样本训练多个标点预测模型,由对应语种的各个标点预测模型根据输入的文本段输出对应的各个标点预测结果,根据各个标点预测结果,在对应的各个文本段中的添加对应的各个标点信息。相较于传统的按照固定语种进行标点添加的方式,本方案通过多个语种的文本段样本训练多个标点预测模型,对混合多个语种的语音进行对应语种的文本段识别,根据文本段的语种,通过对应的标点预测模型对文本段进行标点预测,提高了对混合多种语音的识别文本进行标点预测的准确度。
本发明授权混合语音识别文本的标点预测方法、装置、计算机设备、可读存储介质和程序产品在权利要求书中公布了:1.一种混合语音识别文本的标点预测方法,其特征在于,所述方法包括:获取待预测的语音,将所述语音输入经训练的语种文本识别模型,由所述语种文本识别模型识别所述语音中的各个语种对应的各个文本段;将各个所述文本段输入对应语种的经训练的各个标点预测模型,由各个所述标点预测模型根据输入的文本段输出对应的各个标点预测结果,包括:针对每个文本段,根据所述文本段对应的语种,确定对应的经训练的目标标点预测模型,将所述文本段输入所述目标标点预测模型;由所述目标标点预测模型提取所述文本段对应的文本特征序列,通过条件随机场将所述文本特征序列与预设标点集合进行匹配,得到所述文本段中需要标注标点的各个目标字符以及各个所述目标字符对应的目标标点;根据各个所述目标字符以及各个所述目标字符对应的各个所述目标标点,输出所述文本段对应的标点预测结果;其中,所述标点预测模型的训练过程包括:获取各个语种对应的各个文本段样本以及各个所述语种对应的待训练的标点预测模型;针对每个语种对应的所述标点预测模型,将所述语种对应的文本段样本输入所述标点预测模型,由所述标点预测模型通过条件随机场提取所述文本段样本对应的文本特征样本序列;将所述文本特征样本序列与预设标点集合进行匹配,从所述预设标点集合中的各个预设标点中确定所述文本特征样本序列中各个文本特征对应的目标预设标点;根据各个所述文本特征以及各个所述文本特征对应的各个目标预设标点,确定对应的概率分布函数;根据所述概率分布函数的对数的相反数,确定对应的对数似然函数;根据所述对数似然函数的输出值调整所述标点预测模型的模型参数,直至所述对数似然函数的输出值最小时,得到所述语种对应的经训练的标点预测模型;根据各个所述标点预测结果,在对应的各个所述文本段中的添加对应的各个标点信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南方电网人工智能科技有限公司,其通讯地址为:510700 广东省广州市黄埔区中新广州知识城亿创街1号406房之822;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。