Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京赛思信安技术股份有限公司郑博文获国家专利权

北京赛思信安技术股份有限公司郑博文获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京赛思信安技术股份有限公司申请的专利一种基于神经辐射场和隐属性的虚拟主播生成方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117171392B

龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311094348.7,技术领域涉及:G06F16/783;该发明授权一种基于神经辐射场和隐属性的虚拟主播生成方法与系统是由郑博文;董建武;吴林涛;黄萌设计研发完成,并于2023-08-28向国家知识产权局提交的专利申请。

一种基于神经辐射场和隐属性的虚拟主播生成方法与系统在说明书摘要公布了:本发明公开了一种基于神经辐射场和隐属性的虚拟主播生成方法与系统,属于人工智能技术领域。根据需要确定虚拟主播的人物形象,并通过虚拟主播生成系统进行合成。首先通过人脸特征提取与构建模块合成虚拟主播的三维人脸。然后将需要播报的文本信息通过语音合成模块合成虚拟主播的语音。提取虚拟主播的语音、唇部运动、头部运动和眼睛眨动特征,并通过改进的NeRF网络模块结合各特征对虚拟主播的视频进行合成。最后替换合成视频的背景,合成最终的虚拟主播。本发明生成的虚拟主播具有高效稳定性和更高的真实度,能够适用于不同领域的虚拟主播制作。

本发明授权一种基于神经辐射场和隐属性的虚拟主播生成方法与系统在权利要求书中公布了:1.一种基于神经辐射场和隐属性的虚拟主播生成方法,其特征在于,具体包括以下步骤: 步骤一,根据实际需要构建虚拟主播的人物形象,包括人物视频数据、语音及文本数据和背景数据,作为虚拟主播生成系统的输入; 步骤二,人脸特征提取与构建模块对人物视频数据进行人脸特征提取与构建,生成虚拟主播的三维人脸; 步骤三,通过语音数据对语音合成网络进行训练,同时将文本数据输入文本转写模块进行文本前端处理,然后将处理后的文本输入训练好的语音合成网络模型中,经过语音合成后,得到虚拟主播的合成语音; 步骤四,语音特征提取模块对虚拟主播的合成语音进行特征提取,同时显隐属性特征提取模块结合三维人脸对视频数据中的显隐属性特征信息进行提取,并将提取出的各特征信息均输出给改进的NeRF网络模块; 语音特征提取:对虚拟主播的合成语音进行特征提取,提取出频谱、语调和音高特征信息,并将其映射到相应的离散值; 显属性特征提取:对视频数据使用3DMM提取与语音数据有强相关性的唇部运动、面部运动和表情特征数据,作为显属性输出给改进的NeRF网络模块; 隐属性特征提取:与语音数据具有弱相关性的属性,即与语音上下文相关,或与个性化谈话风格相关的其他属性,包括头部运动和眨眼,通过构建的三维人脸模型,提取视频数据中相关部位的运动,作为隐属性输出给改进的NeRF网络模块; 步骤五,改进的NeRF网络模块根据语音特征信息和显隐属性特征信息对虚拟主播的静态场景、动态头部和动态躯干建模,得到虚拟主播的合成视频; 具体为: 1改进的NeRF网络用于静态场景建模时,采用减少MLP多层感知机,并将MLP使用线性插值代替,以在每个静态3D位置保持所重构的静态信息,以此将3D场景的特征存储在静态场景可训练网格结构中; 2改进的NeRF网络用于动态头部建模时,将高维人物的音视频处理网络分解为三个低维可训练特征网格,即唇形运动模型、人物头部运动模型和眼睛眨动模型;为了实现音频和各运动模型的同步,将音频-空间编码模块分解为3D空间网格和2D音频网格,将音频和空间表示分解成两个网格;当各运动模型在3D中保持静态空间坐标时,音频动态被编码为低维“坐标”; 构建显属性唇形运动和音频之间的关系时,直接同步嵌入听觉话语的嘴部运动;具体来说,使用CNN音频编码器从输入音频中提取音素特征,表达式如下: 其中a表示输入音频数据; 采用对比学习策略来对齐音频特征与嘴的特征,将及时对齐的音频和嘴部特征,视为正对,而非对齐的对,被视为负对;使用二元交叉熵损失进行对比学习,其中及时对齐的正对之间的距离比未对齐的负对更近; 表示唇形和语音的二元交叉熵损失,表示正对的余弦距离,表示负对的余弦距离; 音频与隐属性眨眼频率和头部姿势的同步过程为: 关于眨眼和头部姿势运动使用可控的概率模型,长度为T的面部属性序列和一个长度为的调理音频序列,面部属性包括头部姿势或眨眼;需要在画面到嵌入预测生成的面部属性序列;面部属性序列的预测包括:1潜在隐属性空间建设,在大型数据集上使用GaussianProcess训练Transformer-VAE,以此建立输入之间的映射面部属性序列和一个隐属性空间Z;2头部姿态和眨眼空间建设,微调跨模态编码器在选定的人物上嵌入两个头部BOP和眨眼频率音频嵌入隐属性空间Z; 在获得生成的头部姿态、眨眼特征和同步音频特征之后,使用神经辐射场来生成具有这些条件的最终图像;首先将同步音频特征和眨眼特征连接成新的特征;然后,以这个新的特征作为输入,提出了一个条件辐射场;将头部姿态从相机空间转换到规范空间之后,直接使用头部姿态来替换条件辐射场的观察方向d;最后,正则空间中的特征f、观察方向d和3D位置x构成隐函数的输入;对于所有输入向量,隐函数能够估计伴随密度的颜色值c以及分派的光线; 隐函数用公式表示为: 3改进的NeRF网络用于动态躯干建模时,在一个轻量级的伪3D可变形模块中用另一个2D网格模拟躯干的动态特性,并合成与头部匹配的自然躯干图像; 4将单独渲染的头部和躯干模型与静态模型进行合成,获得虚拟主播的合成视频; 步骤六,背景替换模块根据背景数据对虚拟主播合成视频的背景进行替换,并将虚拟主播人物形象、背景和音频融合,合成最终的虚拟主播; 步骤601,将虚拟主播合成视频输入背景分割模块,通过Background-Matting背景分割模型提取图像中前景物体的Alpha通道,使得合成视频中虚拟主播的形象与背景完全分离; 步骤602,将分割后的虚拟主播形象合成到另一张背景图像中,得到合成图,并通过图像和谐化模块对合成图进行和谐化处理,完成背景替换; 背景替换后的图像为: 其中背景图像为,前景图像为,前景图像掩码为M,组合图像为,为哈达玛乘积; 步骤603,将背景替换后的虚拟主播视频和虚拟主播合成语音输入FFmpeg工具进行音视频结合,合成最终的虚拟主播。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京赛思信安技术股份有限公司,其通讯地址为:100125 北京市朝阳区霞光里5号瑞普电子大厦二层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。