Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜上海交通大学蔡鸿明获国家专利权

恭喜上海交通大学蔡鸿明获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜上海交通大学申请的专利基于多模态知识图谱的语音自适应补全系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113936637B

龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111207821.9,技术领域涉及:G10L13/02;该发明授权基于多模态知识图谱的语音自适应补全系统是由蔡鸿明;李琥;于晗;姜丽红设计研发完成,并于2021-10-18向国家知识产权局提交的专利申请。

基于多模态知识图谱的语音自适应补全系统在说明书摘要公布了:一种基于多模态知识图谱的语音自适应补全系统,包括:数据接收器、数据分析器和数据推理器,其中:数据接收器根据接收的音视频数据,进行预处理并输出至数据分析器;数据分析器对语音和图像的分析提取出波形时序特征和唇部轨迹特征,经多模态联合表征得到音素序列;数据推理器根据历史文本,进行领域会话建模和候选文本预测,结合音素序列进行文本推理,得到具有语义的语句,并根据波形特征合成补全的语音。本发明通过音素推理模型,在语音模态缺失时进行音素识别的同时,根据多模态知识图谱中实体间的语义关系对已有语音所产生的历史文本进行领域会话建模,从而推理并生成具有语义的文本,结合用户语音的波形特征对语音进行合成,形成补全后的音频。

本发明授权基于多模态知识图谱的语音自适应补全系统在权利要求书中公布了:1.一种基于多模态知识图谱的语音自适应补全系统,其特征在于,包括:数据接收器、数据分析器和数据推理器,其中:数据接收器根据接收的音视频数据,进行预处理并输出至数据分析器;数据分析器对语音和图像的分析提取出波形时序特征和唇部轨迹特征,经多模态联合表征得到音素序列;数据推理器根据历史文本,进行领域会话建模和候选文本预测,结合音素序列进行文本推理,得到具有语义的语句,并根据波形特征合成补全的语音;所述的数据分析器包括:语音分析模块、基于时空的图像分析模块和多模态信息融合模块,其中:语音分析模块从预处理后波形中提取历史文本、波形特征和波形时序特征,作为语音模态数据输出至多模态数据汇聚模块;基于时空的图像分析模块对预处理后的每一帧唇部控制点集合构建时空图,搭建时空图卷积神经网络,根据时空图中每一帧的前后信息提取出每一帧的唇部运动特征,合并形成唇部轨迹特征,作为视频模态数据输入到多模态数据汇聚模块;多模态融合模块对波形时序特征和唇部轨迹特征以跨模交互的方式实现特征对齐,训练得到跨模态转换模型,再将唇部轨迹特征和波形时序特征相互转换过程中的隐藏状态特征作为两个模态间联合表征,通过训练音素预测模型将联合表征信息转换为音素信息,增强唇部特征模态对音素信息的表征能力,对于语音数据包丢失区域,基于唇部轨迹特征进行音素识别,并拼接为音素序列,作为语义文本推理模块的输入;所述的唇部运动特征,通过以下方式提取得到:通过构建时空图卷积神经网络,对于当前帧,空间图卷积神经网络的输入用一个3维矩阵C,T,V表示,其中C代表唇部控制点的特征维度,采用控制点的坐标作为特征,T代表与当前帧及前T-1帧,V代表唇部控制点的数量,从空间上,采用图划分的策略,将每一帧的图G分解成G1,G2,G3三个子图,分别表示控制点向心运动、离心运动和静止的动作特征,G1中每个控制点连接比该控制点更靠近唇部中心的邻居控制点,G2中每个控制点连接比该控制点更远离唇部中心的邻居控制点,G3中每个控制点连接该控制点本身,因此图卷积所使用的大小为1,V,V卷积核个数为3个,通过加权平均得到相邻控制点的局部特征,在时间上,为了在当前帧的空间特征上叠加时序特征,采用时间卷积神经网络,使用T,1大小的卷积核对每个唇部控制点当前帧和前T-1帧的特征进行融合,获取每个控制点在时间中变化的局部特征,通过使用空间和时间卷积,提取出唇部运动特征,每一帧的输出为1,V,N2,其中N2为每个控制点提取得的特征个数,将每一帧的唇部运动特征进行拼接,输出为T,V,N2唇部轨迹特征;所述的数据汇聚是指:定义领域、文本词语、音素、波形特征、波形时序特征和唇部轨迹特征本体类型、属性及其关系,以语音模态的历史文本、波形特征、波形时序特征和视频模态的唇部轨迹特征的输入为不同实体,基于多模态知识图谱汇聚、存储和关联这些实体,在系统运行的过程中不断扩张知识,为后续模块中文本推理的增强和验证提供支持,此外,数据经过整编后,波形时序特征和唇部轨迹特征作为多模态融合模块的输入,历史文本作为语义文本推理模块的输入,波形特征作为语音补全模块的输入;所述的联合表征,即基于Seq2Seq的多模态联合表征,具体是指:跨模交互基于Seq2Seq模型,其中跨模态转换模型用BILSTM作为编码器和解码器,通过从唇部轨迹特征到波形时序特征的翻译和从波形时序特征到唇部轨迹特征的反向翻译进行训练,得到两个模态的联合表征。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。