首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于声音和图像多模态协同学习的路面材质识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明属于移动机器人路况识别与自主导航技术领域,一种基于声音和图像多模态协同学习的路面材质识别方法,包括以下步骤:1路面材质声音数据和图像数据的同步采集,2路面材质声音及图像数据预处理,3路面材质声音数据的梅尔倒谱特征提取,4训练集的标定及建立,5构建多模态协同学习深度卷积神经网络进行训练,6基于训练好的多模态协同学习深度卷积神经网络模型进行路面材质识别。本发明优点是:利用声音和图像两种模态信息实现对路面材质的分类识别,基于梅尔倒谱特征实现对路面材质声音特征的有效提取并提出多模态协同学习深度卷积神经网络模型,利用路面材质声音和图像数据进行多材质路面的识别。

主权项:1.一种基于声音和图像多模态协同学习的路面材质识别方法,其特征在于,包括以下步骤:步骤1、路面材质声音数据和图像数据的同步采集:将路面材质分为10个类别,分别为草地路面、瓷砖路面、沥青路面、天然石路面、水泥路面、橡胶路面、地砖路面、木板路面、鹅卵石路面及碎石路面,采用声音采集器对每个类别路面按照每50下敲击为一组的规则进行路面材质声音数据采集,建立路面材质声音数据集S={Si|1≤i≤10},其中,i为路面材质类别,Si为第i类路面材质对应的声音数据,采用相机同步拍摄对应路面材质的图像数据,每一类路面材质在不同角度不同路段拍摄图像200张,建立的路面材质图像数据集I={Im,n|1≤m≤10,1≤n≤200},其中,m为路面材质类别,n为第m类路面材质对应的图像张数;步骤2、路面材质声音及图像数据预处理:对于路面材质声音数据,通过分割、滤波降噪、分帧加窗、端点检测预处理操作,提高路面材质声音数据的质量,去除噪声影响;对于路面材质图像数据进行数据增强及裁剪,具体包括以下子步骤:a对路面材质原始声音数据通过分割得到单次敲击数据,第i类路面材质声音数据Si={sij|1≤j≤50},其中sij为分割得到的单独路面材质声音数据文件,j为单独路面材质声音数据文件对应的敲击次数;b将采集的路面材质声音数据经过高通滤波器进行滤波,通过公式1进行描述, 其中,α表示滤波器系数,sijt为当前时刻的路面材质声音数据,表示经过滤波降噪处理后t时刻的路面材质声音数据,通过滤波器能够平衡频谱,改善信号-噪声比,能够抑制低频信息的比重,相对提高高频有用成分的比重;c为了满足傅里叶变换条件,需要将路面材质声音数据分割成短时稳定信号,分帧截取时间段的范围是10~30ms,对分帧后的路面材质声音数据fij进行加窗处理,以减少分帧带来的影响,加窗后的路面材质声音数据cij=fij×w,其中窗函数w采用汉明窗;d端点检测:通过设置不同的音量阈值确定路面材质声音有效数据的起始位置和结束位置,首先计算出该段加窗后的路面材质声音数据cij中的音量最大值vmaxij和最小值vminij,并通过相减得到路面材质声音数据的变换范围值vdifij,以最低路面材质声音数据为起点,分别取vminij+vdifij×0.1、vminij+vdifij×0.01、vminij+vdifij×0.05三种不同的阈值作为路面材质声音数据的端点位置判断,当超过该阈值时则需要开始记录起始点,并判断下一时刻路面材质声音数据是否大于该阈值,直到检测到低于阈值的端点并记录下来,将最终起始点位置和最后的低于阈值的位置之间的路面材质声音数据作为敲击路面的有效路面材质声音数据eij;e对路面材质图像数据通过旋转、镜像、仿射变换方式进行数据增强,进一步增加图像数量,提高泛化能力,得到路面材质图像数据集步骤3、路面材质声音数据的梅尔倒谱特征提取:为了体现不同路面材质声音数据之间的特征差异,有效区分不同材质的路面声音数据,提取路面材质声音数据的梅尔倒谱特征,具体包括以下子步骤:a对端点检测得到的有效路面材质声音数据eij进行一维傅里叶变换得到对应的频域信号其中N代表每一帧路面材质声音数据中的采样点数,k为采样点,功率谱gij=|pijk|2;b将每一帧路面材质声音数据的功率谱gij放入到梅尔三角滤波器组中进行滤波处理,并计算对数能量qij,通过如下公式进行描述,其中,hij表示梅尔滤波器的频率响应,M为梅尔滤波器的数目;c对qij进行离散余弦变换得到最终的梅尔倒谱特征系数,通过如下公式进行描述,其中melij表示梅尔倒谱特征系数,v表示梅尔倒谱系数的阶数,N为每一帧路面材质声音数据中的采样点数;步骤4、训练集的标定及建立:对从路面材质声音数据提取出的梅尔倒谱特征进行标注,并对路面材质图像数据进行标注,为神经网络构造训练集;步骤5、构建多模态协同学习深度卷积神经网络进行训练:构建多模态协同学习深度卷积神经网络,基于不同路面材质声音数据的梅尔倒谱特征melij和图像数据两种模态信息进行协同学习,实现路面材质分类识别,具体包括以下子步骤:a路面材质声音数据特征增强及图像数据预处理:对路面材质声音数据特征增加一些辅助特征,包括音频中的色度频率特征、Mel频谱特征、谱对比度特征、色调质心特征,通过特征拼接融合构成了193维的特征向量,最后通过补零对齐形成196维的特征向量,进一步将特征转换为二维的矩阵形式14×14,在该网络中的输入端进行维度扩充得到3D张量14×14×1,通过裁剪将图像尺寸统一为64x64x3;b分类网络包括声音卷积分类网络和图像卷积分类网络两个分支,其中,声音卷积分类网络包含1个卷积层Conv1,参数为卷积核尺寸1×1、步长1、相同填充、输出通道数32,进行批量归一化BN处理,并采用Leaky_ReLU激活函数进行激活;3个轻量化深度可分离卷积层DConv2、DConv3、DConv4,串行连接;其中,DConv2的参数为卷积核尺寸3×3、步长1、相同填充、输出通道数32,进行批量归一化处理,并采用Leaky_ReLU激活函数进行激活;池化层Maxpool1的参数为2×2最大池化、步长2、无填充;DConv3的参数为卷积核尺寸3×3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用Leaky_ReLU激活函数进行激活;DConv4的参数为卷积核尺寸3×3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用Leaky_ReLU激活函数进行激活;池化层Maxpool2的参数为3×3最大池化、步长2、填充值为1,然后展平为1024维的特征向量;声音解码端为了防止过拟合先进行Dropout操作,比率设为0.5,然后包含3个全连接层Dense1、Dense2和Dense3,其中,Dense1的输出神经元数目为512,采用Leaky_ReLU激活函数进行激活;Dense2的输出神经元数目为128,采用Leaky_ReLU激活函数进行激活;Dense3的输出神经元数目为10,并对分类结果进行softmax处理;图像卷积分类网络包含5个深度可分离卷积层DConv1、Conv2、DConv3、DConv4、DConv5,DConv1参数为卷积核尺寸3×3、步长1、相同填充、输出通道数32,进行批量归一化BN处理,并采用ReLU激活函数进行激活;池化层Maxpool1的参数为2×2最大池化、步长2、无填充;DConv2的参数为卷积核尺寸3×3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用ReLU激活函数进行激活;池化层Maxpool2的参数为2×2最大池化、步长2、无填充;DConv3的参数为卷积核尺寸5×5、步长2、相同填充、输出通道数256,进行批量归一化处理,并采用ReLU激活函数进行激活;池化层Maxpool3的参数为2×2最大池化、步长2、无填充;DConv4的参数为卷积核尺寸3×3、步长1、相同填充、输出通道数512,进行批量归一化处理,并采用ReLU激活函数进行激活;池化层Maxpool4的参数为2×2最大池化、步长2、无填充;DConv4的参数为卷积核尺寸4×4、步长1、无填充、输出通道数1024,进行批量归一化处理,并采用ReLU激活函数进行激活,然后展平为1024维的特征向量,图像解码端为了防止过拟合先进行Dropout操作,比率设为0.5,然后包含3个全连接层Dense1、Dense2和Dense3;其中,Dense1的输出神经元数目为512,采用ReLU激活函数进行激活;Dense2的输出神经元数目为128,采用ReLU激活函数进行激活;Dense3的输出神经元数目为10,并对分类结果进行softmax处理;c对新获取的路面材质声音数据,通过步骤2、步骤3、步骤5子步骤a处理后,利用步骤5子步骤b中训练好的声音卷积分类网络对新的声音数据进行分类识别,将分类概率大于0.9的路面材质声音数据及其对应的图像数据,根据分类结果进行自动标注,并将标注好的路面材质图像数据补充到图像卷积分类网络的训练集中,进行数据扩充;同理,对新获取的路面材质图像数据,通过步骤2、步骤5子步骤a处理后,利用步骤5子步骤b中训练好的图像卷积分类网络对新的图像数据进行分类识别,将分类概率大于0.9的路面材质图像数据及其对应的路面材质声音数据,根据分类结果进行自动标注,并将标注好的路面材质声音数据补充到声音卷积分类网络的训练集中,进行数据扩充;d不断更新协同学习,对于新获取的每一帧路面材质图像数据和对应的路面材质声音数据,重复进行步骤5子步骤c和步骤5子步骤b,在给出分类结果的同时,不断交叉扩充图像训练集和声音训练集,不断更新图像卷积分类网络和声音卷积分类网络;步骤6、基于训练好的多模态协同学习深度卷积神经网络模型进行路面材质识别。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于声音和图像多模态协同学习的路面材质识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。