买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于信令大数据的旅游路线挖掘方法,包括:获取预设区域原始手机信令数据,去除数据中因乒乓效应产生的噪声数据,得到全域手机信令数据表;爬取预设区域内景区POI数据,筛选景区范围内的基站,构建基站‑景区表,并据此去除全域手机信令数据表中的非景区基站连接数据,得到景区手机信令数据表;去除过路行人、景区工作人员及附近常驻居民产生的干扰数据,得到景区游客手机信令数据表;对景区游客手机信令数据表按时间顺序构造景区序列,并进行聚集计算,得到初步游客游览路线表;采用基于欧式距离的层次聚类法对初步游客浏览路线中的相邻景区进行合并,获得最优旅游路线表。该方法挖掘过程稳定性高,挖掘的旅游路线更准确。
主权项:1.一种基于信令大数据的旅游路线挖掘方法,其特征在于,包括以下步骤:步骤S1,获取预设区域的原始手机信令数据,计算手机每次连接基站的时长,去除所述原始手机信令数据中乒乓效应产生的短时连接噪声数据,得到全域手机信令数据表;其中,将所述手机连接基站的时长少于1分钟的数据作为乒乓效应产生的短时连接噪声数据;计算所述手机连接基站时长的公式为:lasttimex=endtimex-starttimex其中,lasttimex为手机连接基站时长,endtimex为手机断开基站连接的时间,starttimex为手机开始连接基站的时间;步骤S2,爬取预设区域的景区POI数据获得景区列表,根据所述景区列表和所述全域手机信令数据表中的基站列表筛选各景区范围内的基站,构建基站-景区表,再根据所述基站-景区表去除所述全域手机信令数据表中的非景区基站连接数据,得到景区手机信令数据表;所述景区列表包括各景区名称、景区中心经纬度和景区半径,所述基站列表包括基站ID,基站经纬度;步骤S3,去除所述景区手机信令数据表中过路行人、景区工作人员及附近常驻居民产生的噪声数据,得到景区游客手机信令数据表;具体为:以用户ID、景区名称及日期为关键字对所述景区手机信令数据表进行聚集计算,利用每日连接基站时间小于预设的时间值去除所述过路行人;以用户ID、景区名称及周次为关键字对所述景区游客手机信令数据表进行聚集计算,将所述景区游客手机信令数据表中达到预设周期中出现频次数的所述景区工作人员及常驻居民的信令数据去除,得到景区游客手机信令数据表;所述预设周期中出现频次数为每周三天以上;步骤S4,对所述景区游客手机信令数据表按时间顺序构造景区序列,并进行聚集计算,得到初步游客游览路线表;具体为:以用户ID为关键字对景区游客手机信令数据表进行聚集处理生成以开始时间排序的景区序列;利用正则表达式连接与消除字段的方法,将所述景区游客手机信令数据表中开始连接基站时间与景区名称连接排序,再将时间消除,得到游客-景区列表;所述游客-景区列表中包括用户ID和时间排序后的景区序列;然后以所述景区序列为关键字对游客-景区列表进行聚集计算,统计相同景区序列的人数,以人数为关键字排序,获得初步游客游览路线表;所述初步游客游览路线表包括路线人数和时间排序后的景区序列;步骤S5,采用基于欧式距离的层次聚类法对所述初步游客游览路线表中的相邻景区进行合并,获得最优旅游路线;所述步骤S5具体包括:根据所述初步游客游览路线表获取所述景区序列;将每个景区作为单独聚类,初始化景区距离矩阵;遍历所述景区序列计算任意两个景区间的欧式距离;当所述距离矩阵为非空时,选择最小欧式距离,并判断所述最小欧式距离是否小于等于预设阈值,若是,则将所述最小欧式距离的两个景区合并,并将所述最小欧式距离在所述距离矩阵中删除,迭代该过程,直至大于所述预设阈值,完成景区聚类,获得所述最优旅游路线。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学 基于信令大数据的旅游路线挖掘方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。