首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于分布式二级索引的地铁票卡记录存储和索引方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:云南师范大学

摘要:本发明涉及一种基于分布式二级索引的地铁票卡记录存储和索引方法,数据存储和索引技术领域。本发明通过全局索引对轨迹票卡记录进行分区,然后将每个分区映射到不同存储节点,再通过局部索引以时空属性组织分区内的票卡记录,将海量的票卡记录存储在这个分布式二级索引中,完成存储和索引。本发明可以处理超大规模地铁票卡数据集,支持轨迹相似性搜索。

主权项:1.一种基于分布式二级索引的地铁票卡记录存储和索引方法,其特征在于,所述方法包括:Step1:收集所有轨道交通票卡采集系统产生的所有智能卡拍卡记录;所述智能卡拍卡记录是指乘客在地铁站进出闸机拍卡产生的票卡记录;Step2:将全部票卡记录按卡号进行分组,将每组内的票卡记录按时间排序,形成乘客轨迹,将乘客轨迹以OD序列形式保存;所述OD,指的是将乘客在地铁站内的一次行程OD中包含的信息看做一个二元组,包括的信息为:“起点站,入站时间,进站”,“终点站,出站时间,出站”;Step3:对所有乘客轨迹以OD为粒度进行划分,构建分布式二级索引中的全局索引,遍历每条轨迹,获取轨迹中的OD,所有轨迹中的OD构成OD集合;将OD集合划分为多个分区,每个分区内包含一个OD子集,每个分区被映射到唯一的存储节点;其中,OD到分区编号映射,分区编号到存储节点的映射,构成了全局索引;全局索引保存在控制节点中,在全局索引中,以OD为单位进行分区定位;哈希签名是一个函数,其以OD为输入,以一个整型数字为输出,整型数字的最大值对应集群中存储节点的个数;Step4:在每个存储节点上对分区中的OD子集构建局部索引,将每个OD拆分成O和D两个点,形成点集合;分别按照点中的地铁站名称,拍卡时间,进出站标记对点集合逐级进行更细粒度的划分,具体为:首先,将点集合按站点名称进行划分,形成站点名称子集合;其次,对站点名称子集合以时间间隔进行划分,形成时间段子集合;最后,将时间段子集合按方向划分为两组,分别进站组和出站组;Step5:给定以OD序列形式保存的目标轨迹,计算目标轨迹在集群中的数据分布特征;根据所述数据分布特征、局部计算成本、网络传输成本和分布式同步成本,在所有搜索方案中寻找耗时最短的最优搜索方案;Step6:指定查询轨迹、相似性度量函数、相似性阈值和过滤策略,调用查询接口;Step7:根据查询轨迹计算乘客轨迹在集群中的分布特征,根据分布特征计算最优搜索方案;所述最优搜索方案,指的是所有搜索方案中耗时最小的搜索方案;Step8:在分布式环境下执行最优搜索方案,具体为:执行第一轮搜索,一组在分布式环境下并行执行的任务,分别在本地的局部索引中抽数据并合并成OD,再将数据通过网络传输到对应的节点;执行第二轮搜索,一组在分布式环境下并行执行的任务同时执行,每个任务处理逻辑相同;每个任务首先获取其他节点发送给本地的数据,与本地数据进行合并,形成候选轨迹片段,将候选轨迹片段通过网络传输到对应的节点;后续轮次的搜索均与第二轮次搜索过程相同;最后一轮次结束以后,形成候选轨迹集合;所述候选轨迹集合,指的是集合中的每个轨迹都可能满足相似性查询条件;Step9:对候选轨迹集合执行过滤策略,不满足过滤条件的轨迹被删除,满足过滤条件的轨迹被保留,形成结果轨迹集合;Step10:返回Step9中的结果轨迹集合。

全文数据:

权利要求:

百度查询: 云南师范大学 一种基于分布式二级索引的地铁票卡记录存储和索引方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。