Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种快速生成谈话数字人的方法、系统、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:小哆智能科技(北京)有限公司

摘要:本发明实施例公开了一种快速生成谈话数字人的方法、系统、设备及存储介质,利用基于八叉树的表示,将3D空间分解为多个正交平面,从而实现了动态头部的重,此外,还提出了、区域注意力模块,用于捕捉音频特征与空间区域之间的关联性,从而实现更精确的面部运动建模,通过引入自适应姿势编码,解决了头部和身体之间的分离问题,提高了生成结果的准确性和逼真度。解决现有技术在数字人合成领域的局限性,实现了高质量的渲染效果、快速的收敛速度和实时的推断过程,为数字人合成领域带来新的可能性,推动其在更多领域的应用和发展。

主权项:1.一种快速生成谈话数字人的方法,其特征在于,所述方法包括:S1、采集需要用于合成的音频数据与相关的人脸图像数据并进行预处理,生成适用于NeRF模型的NeRF格式音频数据与NeRF格式人脸图像数据;S2、利用八叉树将3D空间分解为多个正交平面并将每个空间立方体细分为空间中的实体;S3、利用多模态注意机制将音频特征与特定的空间区域相结合,实现面部运动建模;S4、利用自适应姿势编码将复杂的姿势信息映射至空间坐标,生成姿势空间坐标信息,为身体部分的NeRF学习隐式姿势提供清晰的位置关系数据;S5、利用NeRF格式音频数据与NeRF格式人脸图像数据训练预设NeRF模型并利用损失函数与优化算法进行参数调整,获取训练完成的NeRF模型;S6、获取一个NeRF格式音频数据与NeRF格式人脸图像数据,利用训练完成的NeRF模型和NeRF格式音频数据与NeRF格式人脸图像数据生成一个待渲染谈话数字人,对所述待渲染谈话数字人进行渲染,生成渲染完成的谈话数字人。

全文数据:

权利要求:

百度查询: 小哆智能科技(北京)有限公司 一种快速生成谈话数字人的方法、系统、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。