智慧眼科技股份有限公司陈铁金获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉智慧眼科技股份有限公司申请的专利基于多模态语音特征融合的数字人语音合成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120833777B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511310001.0,技术领域涉及:G10L13/027;该发明授权基于多模态语音特征融合的数字人语音合成方法及系统是由陈铁金设计研发完成,并于2025-09-15向国家知识产权局提交的专利申请。
本基于多模态语音特征融合的数字人语音合成方法及系统在说明书摘要公布了:本发明公开了一种基于多模态语音特征融合的数字人语音合成方法及系统,该方法通过特征级联和多头模态交互注意力机制对多模态特征进行了加权融合,不仅仅通过特征拼接级联的方式实现模态融合,而且通过多头模态交互注意力机制实现了不同模态特征之间内在关联的显示建模,实现了多模态特征之间的深度交互融合,便于实现细粒度的声学特征控制,使模型可独立控制不同维度的声学参数,可以显著提升合成语音的自然度和个性化。
本发明授权基于多模态语音特征融合的数字人语音合成方法及系统在权利要求书中公布了:1.一种基于多模态语音特征融合的数字人语音合成方法,其特征在于,包括以下内容: 输入原始语音样本和待合成文本,提取原始语音样本的多模态特征,其中,多模态特征包括声纹特征、节奏特征和语调特征; 采用特征级联和多头模态交互注意力机制对多模态特征进行加权融合,生成高维联合特征向量; 将待合成文本和高维联合特征向量输入至语音合成引擎中,输出合成音频流; 所述采用特征级联和多头模态交互注意力机制对多模态特征进行加权融合,生成高维联合特征向量的过程包括以下内容: 将声纹特征、节奏特征和语调特征拼接成多模态级联特征向量; 设计多头模态交互注意力机制,其中,在多头模态交互注意力机制中,第一个头部计算声纹特征和语调特征之间交互的注意力系数,第二个头部计算节奏特征和文本语义特征之间交互的注意力系数,第三个头部计算声纹特征和节奏特征之间交互的注意力系数; 对多头模态交互注意力机制计算结果进行加权融合,生成高维联合特征向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人智慧眼科技股份有限公司,其通讯地址为:410205 湖南省长沙市岳麓区学士街道学士路336号慧谷科技产业园B1栋205号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励