买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种基于多模态图像融合的舌体分割与舌苔润燥识别方法属于中医舌诊和图像处理的交叉领域。目前,舌苔润燥识别技术主要依赖于传统的二分光反射模型或机器学习。这些方法往往不能自适应地捕捉舌体水分亮斑区域及其邻近区域的特征,从而影响了润燥识别的准确性。本发明创新性地融合偏振度图像,通过门控卷积提取舌苔水分亮斑区域,并通过逐级点乘的方式,使网络在提取舌体可见光图特征的过程中自适应地关注水分亮斑区域。相比人工计算润燥系数,显著提高了舌苔润燥识别的准确率。
主权项:1.一种基于多模态图像融合的舌体分割与舌苔润燥识别方法,其特征在于包括以下步骤:步骤1:多模态舌图像采集步骤2:构建舌体分割网络所构建的舌体分割具体参数如下:1R1、R2、R3、R4与P1、P2、P3、P4均为特征提取层;其中,Ri提取可见光舌图像特征,Pi提取偏振角舌图像特征;Ri与Pi结构相同;Ri包括一个重叠块合并、N个有效自注意力和混合前馈网络;其中,R1层接收大小为512×612、通道数为3的可见光图像;R1层通过7×7的卷积核、步长为4以及边缘填充为3的二维卷积以及层归一化,对原始舌图像进行重叠块合并处理;R2、R3、R4均将图像块大小设定为3×3,并利用3×3的卷积核、步长为2以及边缘填充为1的二维卷积,结合层归一化,进行重叠块合并;R2、R3、R4输入尺寸分别为128×153、64×76、32×33,输入通道数分别为64、128、320,输出通道数为128、320、512;自注意力计算包括线性嵌入和自注意力机制;在Ri线性嵌入过程中,首先将重叠块合并后的特征B每轮训练的样本数×C通道数量×H高度×W宽度展平为B×C×H*W,然后将其转换为B×H*W×C后经过全连接层,获得Q查询、K键和V值,全连接层的输出通道数与输入通道数相同;接着,Ri通过多头自注意力机制来捕捉不同特征块之间的相关性,R1、R2、R3、R4的头数分别为1、2、5和8;其中,自注意力机制实现过程可以表示为:R1、R2、R3、R4中的有效自注意力数量N分别为3、4、6、3;将经过自注意力机制后的特征与原始输入逐元素相加,并送入混合前馈网络;在混合前馈网络中,对于R1、R2、R3、R4特征提取层,均使用全连接层将特征图的通道数扩展至输入通道数的3倍;接着,均通过3×3的卷积核、步长为1和边缘填充为1的深度卷积实现位置编码;之后,均依次通过GELU激活函数和全连接层,将输出通道数降至输入通道数的三分之一;2在特征提取的过程中,同步进行多模态特征逐级融合操作具体如下;首先,在通道维度上,将特征提取层得到的可见光图像特征r和偏振角图像特征p随机分为3组;对于每组特征,采用不同大小的逐深度卷积进行处理;group1特征经过级联的两种逐深度卷积得到r1和p1,包括卷积核大小为1×3、步长为1、左右各填充1列、填充值为0的卷积和3×1、步长为1、上下各填充1行、填充值为0的卷积;group2特征同样经过级联的两种逐深度卷积得到r2和p2,包括卷积核大小为1×5、步长为1、左右各填充2列、填充值为0的卷积和5×1、步长为1、上下各填充2行、填充值为0的卷积;group3特征经过卷积核大小为1×7、步长为1、左右各填充3列、填充值为0的逐深度卷积和7×1、步长为1、上下各填充3行、填充值为0的逐深度卷积得到r3和p3;随后,进行跨模态多尺度交互;为了实现不同模态不同通道间的充分交互,采用三个支路完成多模态特征交互;其中,在Lp1支路,将r2、r3和p1特征进行通道拼接,然后通过1×1卷积核、输入通道数为r2、r3和p1通道数之和、输出通道数等于p1通道数的卷积进行融合;在Lp2支路,将r1、r3和p2特征进行通道拼接,随后通过1×1卷积核、输入通道数为r1、r3和p2通道数之和、输出通道数等于p2通道数的卷积进行融合;在Lp3支路,将r1、r2和p3特征进行通道拼接,然后通过1×1卷积核、输入通道数为r1、r2和p3通道数之和、输出通道数等于p3通道数的卷积进行融合;随后经过卷积核大小为1×1、输出通道数等于输入通道数的逐点卷积,将上述三支路的输出特征进行线性整合;并通过批量归一化和sigmoid激活函数获得与r交互后的特征pE;为了保留更多原始信息,pE不直接被融合,而是与p相乘,然后与r相加后被送入通道压缩模块;将r作为主体,与p交互后的特征rE同样需要三个支路完成;在Lr1支路,将p2、p3和r1特征进行通道拼接,然后通过1×1卷积核、输入通道数为p2、p3和r1通道数之和、输出通道数等于r1通道数的卷积进行融合;在Lr2支路,将p1、p3和r2特征进行通道拼接,随后通过1×1卷积核、输入通道数为p1、p3和r2通道数之和、输出通道数等于r2通道数的卷积进行融合;在Lr3支路,将p1、p2和r3特征进行通道拼接,然后通过1×1卷积核、输入通道数为p1、p2和r3通道数之和、输出通道数等于r3通道数的卷积进行融合;随后经过卷积核大小为1×1、输出通道数等于输入通道数的逐点卷积,将上述三支路的输出特征进行线性整合;并通过批量归一化和sigmoid激活函数最终获得与p交互后的特征rE;为了保留更多原始信息,rE不直接被融合,而是与r相乘,然后与p相加后被送入通道压缩模块;最后,通过通道压缩将交互后的多模态特征进行融合,得到融合特征F;通道压缩由通道拼接和三个卷积层组成;其中,第一个卷积的卷积核为1×1,步长为1,输出通道数是输入通道数的一半;第二个逐深度卷积的核大小为3×3,步长为1,输入特征各边填充1层,填充值为0;随后加入Relu激活函数增加模型的非线性表达能力;第三个卷积的卷积核为1×1,步长为1,输入与输出通道数相同;3在特征提取以及融合的过程,通过细节增强模块DFE和语义增强模块SFE对每级融合后的特征Fii=1,2,3,4进行特征增强;其中,细节增强模块结构由两条支路组成;在支路,首先深度可分离卷积DSConv对前一级特征Fi-1进一步提取特征,其卷积核大小为3×3,步长为2,四周填充大小为1,填充值为0,输出通道数是输入通道数的一半;随后加入批量归一化和激活函数Relu;第二个卷积的卷积核大小为1×1,步长为1,无填充,输出通道数是输入通道数的2倍,随后加入批量归一化;支路由平均池化层和两个卷积层组成,平均池化层将形状为B每轮训练的样本数×C通道数量×H高度×W宽度的前一级特征Fi-1特征压缩为B×C×1;支路的第一个卷积的卷积核大小为1×1,步长为1,无填充,输出通道数是输入通道数的一半;随后加入批量归一化和激活函数Relu;支路的第二个卷积的卷积核大小为1×1,步长为1,无填充,输出通道数是输入通道数的2倍;随后加入批量归一化;最后,将和支路的结果相加,并通过卷积核大小为1×1、步长为1、输入通道数为Fi-1的通道数、输出通道数为Fi的通道数、无填充的卷积进一步融合两支路结果;最后将其经过sigmoid激活函数后与Fi逐元素相乘,获得细节增强后的特征语义增强模块具体如下;Gi+1所在支路通过卷积核为1×1、输出通道为1、步长为1、无填充的卷积和sigmoid激活函数生成门控信号;并将门控信号与Fi相乘,增强Fi的语义信息;考虑到Fi+1传递的完整性,还引入了平行融合流;具体来说,首先将Fi+1通过双线性插值进行上采样,使Fi+1的空间分辨率与Fi相同,并与Fi进行通道拼接;随后,通过大小为3×3卷积核、步长为2、四周填充大小为1的卷积,将输入通道压缩为与Fi相同的通道数,并加入批归一化和Relu激活函数;最后将两支路结果相加,得到语义增强后的特征最后将与逐元素相加得到4通过MLP获得舌体分割图MLP包括两层全连接层;第一层全连接,首先将每级增强后的特征i=1,2,3,4进行通道拼接,然后经过卷积核大小为1×1的卷积将输入特征通道数降至原来的四分之一;随后加入批量归一化和Relu激活函数,提高模型的泛化能力,并加入dropout层,dropoutratio设为0.1;第二层全连接通过卷积核大小为1×1的卷积将输入通道降至2,然后经过softmax函数获得舌体预测图;步骤3:构建舌苔润燥识别网络所构建的舌苔润燥识别网络具体如下:其中,C1,C2,C3,C4对舌体可见光图底层特征进一步提取深层特征,G1、G2和G3负责提取舌体偏振度图水分亮斑区域特征,FC预测最终的舌苔润燥类别;各层详细参数如下:C1包括两个卷积层和一个最大池化层,两个卷积层输入尺寸为128×153,卷积核大小均为3×3,卷积核个数均为128,步长均为1,边缘填充均为1,输出为128×153;随后加入Relu激活函数;然后经过核大小为2×2,步长为2的最大池化层,将输入特征的长宽减半;C2包括两个卷积层和一个最大池化层,两个卷积层输入尺寸为64×76,卷积核大小均为3×3,卷积核个数均为256,步长均为1,边缘填充均为1,输出为64×76;随后加入Relu激活函数;然后经过核大小为2×2,步长为2的最大池化层,将输入特征的长宽减半;C3包括两个卷积层和一个最大池化层,两个卷积层输入尺寸为32×38,卷积核大小均为3×3,卷积核个数均为512,步长均为1,边缘填充均为1,输出为32×38;随后加入Relu激活函数;然后经过核大小为2×2,步长为2的最大池化层,将输入特征的长宽减半;C4包括两个卷积层和一个最大池化层,两个卷积层输入尺寸为16×19,卷积核大小均为3×3,卷积核个数均为512,步长均为1,边缘填充均为1,输出为16×19;随后加入Relu激活函数;然后经过核大小为2×2,步长为2的最大池化层,将输入特征的长宽减半;FC包括三层全连接层,首先将C4输出特征平坦化处理,得到B每轮训练的样本数×512*8*9张量;然后送入线性变化层nn.Linear,得到B×4096张量;随后加入激活函数Relu和dropout层,dropoutratio为0.5;再次经过一层线性变化层、激活函数Relu和dropout层,dropoutratio为0.5,得到B×1024张量;最后经过一层线性变化层,得到B×3张量,然后通过softmax函数得到最终的舌苔润燥类别概率分布;G1、G2和G3均为门控卷积,均包含三层卷积和激活函数sigmoid;G1的第一层卷积的卷积核大小为3×3,步长为1,填充大小为1,输入通道数为1,输出通道数为8;第二层卷积的卷积核大小为3×3,步长为4,填充大小为1,输入与输出通道数相同;最后一层卷积使用1×1卷积核,输出通道为1;G2和G3每层卷积的卷积核大小与G1相同,不同的是G2第一层卷积的输入来自G1第二层卷积的输出,其输出通道数为16,G2的第二层卷积核的步长为2;G3第一层卷积的输入来自G2第二层卷积的输出,其输出通道数为32,G3的第二层卷积核的步长为2;步骤4:基于舌体分割网络实现舌体分割训练过程:将训练集中的可见光-偏振角图像进行随机反转和随机裁剪;然后批量送入舌体分割网络,其中该网络的编码器已经在ImageNet数据集上进行了预训练;经过舌体分割网络获得一批图像的逐像素二分类概率之后,将其与真实舌体分割图输入交叉熵损失函数,如公式1所示,Yi表示真实类别0代表非舌体区域,1代表舌体区域,yi代表网络输出经过softmax回归后的预测值,N表示像素数; 随后,反向传播损失误差梯度,采用AdamW优化器更新网络参数,以最小化损失函数L1,完成一轮优化;重复上述过程,使网络输出不断接近真实值;实验过程中,采用学习率预热以及Poly策略来调整学习率,动量参数设置为0.9,权值衰减因子为0.01,批量大小设置为4,共经过500轮迭代完成训练;预热阶段的迭代轮数为10,该阶段的学习率lrs1呈线性增长,具体公式如下: 预热阶段结束后,接着采用Poly策略调整学习率lrs2,具体公式如下: 公式2和3中,基础学习率base_lr为3e-5,warmup_epoch为10,cur_epoch为当前迭代轮数,num_epoch为500,power为0.9;测试过程:将测试集中的可见光-偏振角图像逐对送入训练好的舌体分割网络中,得到预测的舌体区域;通过预测值和真值的交并比IoU来评估舌体的分割精度,如公式4所示;TP表示预测为1,实际为1的像素数;FN表示预测为0,实际为1的像素数;FP表示预测为1,实际为0的像素数;若舌体分割精度IoU大于95%,便可进行步骤5; 步骤5:舌苔润燥识别训练过程:将训练集中的可见光-偏振角图像逐对输入训练好的舌体分割网络获得舌体分割图;随后冻结R1参数,将可见光图送入R1特征提取层,并将R1输出的特征与舌体分割图相乘获得舌体区域特征,同时将偏振度图与分割图相乘获取舌体区域;两者随后被批量输入到舌苔润燥识别网络中;通过门控卷积提取舌体偏振度图中的水分亮斑区域特征,同时通过多层神经网络挖掘舌体可见光图水分亮斑区域的深层特征;随后,通过全连接层以及softmax获得预测的舌苔润燥类别概率分布;将预测值与真实润燥类别送入交叉熵损失函数,如公式5所示,c代表类别,N代表像素数,Yic表示样本真实的one-hot编码,yic表示观测样本属于类别c的预测概率; 采用AdamW优化器更新网络参数以最小化损失函数;学习率为0.001,批量大小设置为4,共经过800次迭代完成训练;测试过程:将测试集中的可见光-偏振角图像逐对送入训练好的舌体分割网络中,得到舌体分割图;然后将经过R1的可见光特征和偏振度图与舌体分割图相乘后送入舌苔润燥识别网络,在网络输出端得到舌苔润燥预测类别。
全文数据:
权利要求:
百度查询: 北京工业大学 一种基于多模态图像融合的舌体分割与舌苔润燥识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。