江苏智檬智能科技有限公司温砚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏智檬智能科技有限公司申请的专利WebM协议低时延的视频音频翻译与字幕优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121585844B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610116109.4,技术领域涉及:H04N21/234;该发明授权WebM协议低时延的视频音频翻译与字幕优化方法及系统是由温砚;董振江设计研发完成,并于2026-01-28向国家知识产权局提交的专利申请。
本WebM协议低时延的视频音频翻译与字幕优化方法及系统在说明书摘要公布了:本发明公开了WebM协议低时延的视频音频翻译与字幕优化方法及系统,属于数据处理技术领域,包括:解析WebM音视频流;建立视频轨‑音频轨关联列表并构建动态因果图谱;基于音频帧序列、视频帧序列和动态因果图谱生成初始翻译文本,通过逆向生成模型提取视频帧的唇动与动作语义数据生成补全翻译文本并嵌入SimpleBlock元素;根据码率数据、完整翻译文本和用户视觉注意力热力图定义字幕核心基因、非核心基因和位置基因,基于码率波动动态裁剪非核心基因,结合热力图调整位置基因以生成自适应字幕数据;通过同步播放采集反馈数据,优化动态因果图谱的边权重和字幕位置基因。本发明实现了音视频翻译的鲁棒性和字幕显示的自适应性。
本发明授权WebM协议低时延的视频音频翻译与字幕优化方法及系统在权利要求书中公布了:1.WebM协议低时延的视频音频翻译与字幕优化方法,其特征在于,包括: 解析WebM音视频流,提取TrackLink元素、码率数据、VP9视频帧序列、Opus音频帧序列及SimpleBlock元素; 以TrackLink元素、VP9视频帧序列及Opus音频帧序列为输入,建立视频轨-音频轨关联列表,并构建时间戳对齐的动态因果图谱; 以Opus音频帧序列、VP9视频帧序列、SimpleBlock元素及动态因果图谱为输入,生成初始翻译文本,检测到Opus音频帧序列丢包时提取对应时段VP9视频帧的唇动与动作语义数据,经逆向生成模型生成补全翻译文本并嵌入SimpleBlock元素,输出完整翻译文本及带补全标记的SimpleBlock元素; 基于码率数据、完整翻译文本及终端采集的用户视觉注意力热力图,定义字幕核心基因、非核心基因、位置基因,根据码率波动动态裁剪非核心基因,并基于用户视觉注意力热力图调整位置基因,生成带时间戳的自适应字幕数据; 将VP9视频帧序列、Opus音频帧序列、带补全标记的SimpleBlock元素及带时间戳的自适应字幕数据按时间戳同步播放,采集同步误差与用户反馈,优化动态因果图谱的边权重及字幕位置基因; 所述时间戳对齐的动态因果图谱的构建过程包括: 对所述VP9视频帧序列进行动作识别,提取连续视频帧中的动作特征向量,生成视频动作时序序列; 对所述Opus音频帧序列进行事件检测,提取音频帧中的事件特征向量,包括音量突变、频谱特征变化,生成音频事件时序序列; 设定第一时间窗口阈值和第二时间窗口阈值; 从所述视频动作时序序列中提取每个视频的动作特征向量的起始时间戳,同时,从所述音频事件时序序列中提取每个音频的事件特征向量的起始时间戳; 对于每一对视频动作与音频事件计算其时间戳差的绝对值,若绝对值小于或等于所述第一时间窗口阈值,则计算动作特征向量和事件特征向量的皮尔逊相关系数,若皮尔逊相关系数高于预设的相关系数阈值,则判定为强因果关系; 若绝对值大于所述第一时间窗口阈值但小于或等于所述第二时间窗口阈值,且皮尔逊相关系数为正,则判定为弱因果关系; 以所述视频动作时序序列和音频事件时序序列中的每个项目为节点,以所述强因果关系和弱因果关系为有向边,构建初始因果图谱,并根据所述视频轨-音频轨关联列表中的时间戳信息,对初始因果图谱中的节点和有向边进行时间戳对齐,形成时间戳对齐的动态因果图谱; 所述根据码率波动动态裁剪非核心基因,并基于用户视觉注意力热力图调整位置基因,生成带时间戳的自适应字幕数据,包括: 实时监测码率数据中的滑动平均码率,当滑动平均码率低于预设的第一码率阈值时,生成字幕裁剪触发信号; 根据动态因果图谱识别完整翻译文本中与弱因果关系对应的非核心基因并对其进行裁剪,输出语义裁剪后的字幕文本; 从终端采集的用户视觉注意力热力图中提取用户注视点坐标,形成注视点坐标序列,基于注视点坐标序列计算其在视频画面上的分布,确定视觉焦点区域; 若所述视觉焦点区域集中且稳定,则输出避开视觉焦点区域的边缘位置坐标,若所述视觉焦点区域分散或无焦点,则输出默认位置坐标,将所输出的位置坐标定义为优化后的位置基因; 将语义裁剪后的字幕文本、优化后的位置基因与VP9视频帧序列和Opus音频帧序列的对应时间戳进行绑定,生成带时间戳的自适应字幕数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏智檬智能科技有限公司,其通讯地址为:211000 江苏省南京市经济技术开发区兴智路6号兴智科技园B栋21层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励