首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于点监督的多视角最优传输人群检测方法、系统及终端 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳大学

摘要:本发明公开了基于点监督的多视角最优传输人群检测方法、系统及终端,方法包括:获取多视角图像,基于卷积神经网络提取多视角图像特征,并基于多视角图像特征,确定占据概率图,占据概率图用于反映每个位置上存在人的概率;获取不同视角的代价矩阵,并基于距离选择策略进行不同视角的代价矩阵的融合,得到最优传输代价矩阵;获取真实人群坐标,并将占据概率图与真实人群坐标使用最优传输代价矩阵所对应的损失函数计算损失值,以监督卷积神经网络的训练。本发明采用真实人群的坐标点作为监督信息,有效克服了模型在大场景,人群密集区域的性能瓶颈,基于多视角的最优传输矩阵可以有效提升场景中人群位置检测的准确率。

主权项:1.一种基于点监督的多视角最优传输人群检测方法,其特征在于,所述方法包括:获取多视角图像,基于卷积神经网络提取多视角图像特征,并基于所述多视角图像特征,确定占据概率图,所述占据概率图用于反映每个位置上存在人的概率;获取不同视角的代价矩阵,并基于距离选择策略进行不同视角的代价矩阵的融合,得到最优传输代价矩阵;获取真实人群坐标,并将所述占据概率图与所述真实人群坐标使用所述最优传输代价矩阵所对应的损失函数计算损失值,以监督所述卷积神经网络的训练;所述获取多视角图像,基于卷积神经网络提取多视角图像特征,并基于所述多视角图像特征,确定占据概率图,包括:基于不同的相机进行图像采集,得到所述多视角图像,其中,每个相机对应一个视角;将所述多视角图像输入至所述卷积神经网络,并基于所述卷积神经网络中的特征提取模块对每一个视角图像进行特征提取,得到所述多视角图像特征,所述多视角图像特征包括从每个视角图像所提取到的人群特征;对所述多视角图像特征进行处理,并经过解码,得到所述占据概率图;所述特征提取模块的权值对于所有视角是共享的;所述对所述多视角图像特征进行处理,并经过解码,得到所述占据概率图,包括:将所述多视角图像特征投影至地平面,得到各个视角的投影特征图;将所有的投影特征图进行融合,并将融合后的投影特征图输入至地平面解码器进行解码,得到所述占据概率图,所述占据概率图为对人群坐标的预测结果;所述获取不同视角的代价矩阵,并基于距离选择策略进行不同视角的代价矩阵的融合,得到最优传输代价矩阵,包括:获取每个相机的视角所对应的代价矩阵;计算每个真实人群坐标到各个相机之间的距离;基于所述距离选择策略,确定与每个真实人群坐标距离最近的相机所对应的代价矩阵;将所有与每个真实人群坐标距离最近的相机所对应的代价矩阵进行融合,得到所述最优传输代价矩阵;所述最优传输代价矩阵为基于马氏距离的传输代价矩阵;在设计最优传输代价矩阵时,首先计算地平面预测人群坐标与真实人群坐标之间的最优传输损失,使用的代价矩阵为基于预测人群坐标点与真实人群坐标点之间的欧氏距离进行指数运算后得到的代价矩阵,具体为: ,其中i和j分别为矩阵的行索引与列索引,T为矩阵转置符号,为图像中像素,为位置;然后,对沿投影方向上的位置偏差给予更大的惩罚,具体包括:使用基于马氏距离的传输代价矩阵,考虑相机射线方向对预测的影响,马氏距离所表征的椭圆的短轴与相机到人群坐标点的方向一致,长轴则相应的垂直于这个方向;对于每一个地平面上人群坐标的真实值,首先计算其协方差矩阵: , ,其中,R表示从原始坐标系到相机射线方向坐标系的逆时针旋转矩阵,为旋转角,是一个对角矩阵,对角线上的值和分别是沿射线方向和垂直于射线方向的方差,为固定常数;其中,,于是(1)(1),表示预测在沿射线方向出现偏差会导致更大的惩罚,得到基于射线的马氏距离代价矩阵,如下: ,对于人群到相机的距离而言,远离相机的人群坐标点预测更加困难,因此,施加更大的惩罚,与的具体表达式为: ,其中为人群到相机的距离,此时,与相等,视为一种为带权重的欧氏距离,用于将坐标点到相机的距离归一化到[0,1]之间,是一个调节因子,用于调节人群到相机距离的影响程度,即构建出基于人群到相机距离的马氏距离最优传输代价矩阵;为了同时考虑以上两个多视角影响因素,提出基于距离-射线的马氏距离最优传输代价矩阵,将与表达为: ,,即用人群到相机的距离去调节马氏距离所表征的椭圆的长短轴,对于逐渐远离相机的人群坐标点,在垂直于射线方向上分配更大的方差,即给予更小的惩罚,相应的在沿着射线方向上的惩罚更大;在多个相机融合时,通过一个基于距离的选择策略来融合每个相机视角的马氏距离的最优传输代价矩阵,最终得到的最优传输代价矩阵表达式为: ;其中,,其中为一个二值函数,用于选出最近视角的C矩阵相对应的值,K是相机的数目,表示真实人群坐标点到第k个相机的距离。

全文数据:

权利要求:

百度查询: 深圳大学 基于点监督的多视角最优传输人群检测方法、系统及终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。