Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合全局场景与局部事件信息的音频语意概述方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及一种音频语意概述方法,具体为一种融合全局场景与局部事件信息的音频语意概述方法,首先对实际场景中产生的音频进行建模分析,随后从声学场景的宏观全局特性入手,并融合了对于场景内各音频事件的精细化感知,最终生成贴合人类自然语言逻辑的语意概述文本,本发明对于声学场景中局部声音事件的精细化感知为构建音频特征的语意信息与自然语言语意信息的映射提供了细粒度的信息感知方式,能够有效规避传统方法对于音频事件的误识别与内容忽略,有助于构建更高语意层次的人机交互过程;此外,本发明提供了全新的注意力计算机制,相比传统注意力机制降低了计算成本。

主权项:1.一种融合全局场景与局部事件信息的音频语意概述方法,其特征在于,包含音频场景时空特征提取器和细粒度语意概述生成器,实际场景所发生的声学信号输入音频场景时空特征提取器,得到了从高维空间表示的场景信息,并保留了各个声音事件的时序特性,突出了各事件信息的潜在表示,从而获得与场景对应的音频特征矩阵;细粒度语意概述生成器首先将词汇表中的离散自然语言词汇表示抽象为潜在的词向量,随后在保障生成概述语序的情况下,对音频特征矩阵进行语意感知,从全局场景和局部事件的角度构建音频特征矩阵到概述语意特征的映射关系,从而生成高质量、高度符合人类语音习惯的场景概述文本;所述细粒度语意概述生成器包含全局语意序列化处理模块,其具体实现依赖于一种无需矩阵乘法的注意力计算机制,并通过可学习的掩码矩阵保障语序,处理全局化的词向量语意特征;掩码矩阵M的数学表示如下: 其中N表示全局场景语意序列的长度,-∞则表示负无穷大,用于屏蔽来自未预测部分的语意干扰;根据上述的掩码矩阵M,全局语意序列处理模块的数学表示形式如下: 其中,为全局序列化语意特征的第n个特征向量,I=n则表示当前语意序列的长度,Q,K,V是由已生成的语意特征映射而来的三个特征矩阵,用于推导第n个特征向量,mn,i则表示掩码矩阵M中的某一个元素,σ·表示Sigmoid非线性S型激活函数,⊙表示逐元素乘法而非矩阵乘法,exp·则表示以自然常数e为底的指数函数,且exp-∞=0,所述全局语意序列处理模块中的第n个特征向量后的未预测信息初始值不会对第n个特征向量的预测生成过程产生干扰同时保障了概述语意的语序,可学习的掩码矩阵M用于在训练过程中学习到全局性的语意感知视角,保证语意序列化特征切合实际声学场景;所述细粒度语意概述生成器还包含局部事件与全局场景结合的语意感知模块,在保留全局场景感知的基础上,借助于局部事件窗为语意概述方法引入了现有方法不曾考虑到的局部事件信息,极大地补偿了对声学场景内各声音事件的具体感知;其中,语意感知模块包含一个可学习的权重矩阵其中L表示音频场景时空特征提取所获得的音频特征矩阵的时间序列长度,并为权重矩阵Z设计了局部事件窗Local·,局部事件窗的数学表示形式如下: 其中,zn,l表示语意感知模块中权重矩阵的一个元素,s则表示局部事件窗的窗长;随后,局部事件与全局场景结合的语意感知模块将这些精细化的局部声音事件信息与感知到的全局场景语意相融合,公式表述如下: 其中表示融合全局场景与局部事件信息的第n位概述语意特征输出,表示序列化语意信息的第n位,HK与HV分别是对音频特征矩阵的映射,⊙为矩阵逐元素乘法,σ·为非线性激活函数,局部事件窗的可学习参数部分为模块认知音频特征的区域性特征提供了可能,经过训练后能够对场景中的局部音频事件进行精确感知,当Localzn,l=0,有exp0=1,这一计算保留了局部事件窗外的全局场景信息感知,从而使得语意感知模块能够同时结合全局场景音频语意信息和局部事件音频语意信息,并生成高质量的概述语意特征。

全文数据:

权利要求:

百度查询: 哈尔滨工程大学 一种融合全局场景与局部事件信息的音频语意概述方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。