买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明属于涉烟预测方法,为解决现有的犯罪预测方法存在不适用于寄递涉烟大数据分析、在特征计算方面和大数据特征分析方面均存在不足的技术问题,提供一种寄递涉烟预测方法、计算机可读存储介质及设备,将大数据和人工智能技术用于寄递涉烟犯罪分析中,提出了寄递时空模式的新概念,并据此计算了寄递大数据的时空特征,用一个带权有向图描述了寄递网络,并计算了该寄递网络的网络拓扑特征,据此描述了寄递关系,使用特征选择方法,挑选出优选特征,结合优选特征计算,以及分类器方法构建的寄递涉烟预测模型,在研判未知寄递数据的精度方面取得了成果,证实了本发明预测方法的可行性和有效性。
主权项:1.一种融合时空和网络拓扑特征的寄递涉烟预测方法,其特征在于,包括以下步骤:S1,数据预处理S1.1,对多个已知类别标签的原始寄递数据进行结构化处理,得到收发信息;所述收发信息包括发件时间、发件人数据、发件地址数据、收件人数据和收件地址数据;所述类别标签表示寄递数据是否涉烟,其中1表示涉烟,0表示不涉烟;S1.2,判断步骤S1.1中所述收发信息是否完整,若完整,则执行步骤S2.1,否则,填充缺失的信息后执行步骤S2.1;S2,模型训练S2.1,将给定时间段内与收发信息中收件地址和发件地址相关的包裹寄递频度作为一维时间序列;S2.2,采用时间序列分析法计算所述一维时间序列的时空特征,同时,采用带权有向图描述寄递网络,计算寄递网络的网络拓扑特征,结合收发信息中的发件时间,使每条收发信息形成多维融合特征向量;所述时空特征为13维时空特征,所述网络拓扑特征为4维拓扑特征;所述多维融合特征向量为69维特征向量;所述13维时空特征包括时间序列的均值、标准差和中位数,一阶差分的绝对和、MAD和香农熵,寄递频度最大值、最小值、最大值最后一次出现位置的百分比、寄递记录总数、寄递频度最大值和最小值区间内的寄递记录总数、寄递记录数超过一次的频度、寄递记录数大于均值的频度;所述采用带权有向图描述寄递网络具体为,将发件点部和收件点部均视作节点,以发件点部到收件点部的寄递关系作为边,用一个带权有向图描述寄递网络;所述计算寄递网络的网络拓扑特征具体为:通过下式计算发件点部节点出度中心性f1:f1=outDegreeuN-1其中,outDegree·表示节点的出度,N表示寄递网络中的所有节点数目;通过下式计算收件点部节点入度中心性:f2=InDegreevN-1通过下式计算节点对的AdamicAdar度量: 其中,ΓZ表示发件点部u和收件点部v共同邻居列表;通过下式计算节点对的Jaccard指标: 其中,Γu表示发件点部u的邻居列表;Γv表示收件点部v的邻居列表;S2.3,使用相关性特征选择法,从由各条收发信息的多维融合特征向量组成的特征向量集合中挑选出优选特征,组成优选特征集合;S2.4,通过优选特征集合计算得到优选特征数据,使用分类器算法,通过交叉验证训练得到寄递涉烟预测模型;S3,模型验证S3.1,对类别标签未知的非结构化寄递数据进行结构化处理,得到对应标签未知的结构化收发信息;S3.2,判断经步骤S3.1得到的收发信息是否完整,若完整,则执行步骤S3.3,否则,填充缺失的信息后执行步骤S3.3;S3.3,通过步骤2.3得到的优选特征集合,计算经步骤S3.2处理后的标签未知的结构化收发信息的融合特征,得到标签未知的结构化收发信息对应的优选特征数据;其中,所述融合特征包括时空特征和网络拓扑特征;S3.4,通过步骤S2.4得到的寄递涉烟预测模型,以及步骤S3.3得到的标签未知的结构化收发信息对应的优选特征数据,得到标签未知的结构化收发信息对应的类别标签输出值,根据类别标签输出值即可预测相关的包裹寄递是否涉烟;S3.5,人工验证步骤S3.4得到的标签未知的结构化收发信息对应的类别标签输出值是否准确,并将人工验证结果作为训练数据再次训练寄递涉烟预测模型,持续完善寄递涉烟预测模型。
全文数据:
权利要求:
百度查询: 中国烟草总公司陕西省公司 一种融合时空和网络拓扑特征的寄递涉烟预测方法、介质及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。