买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学;首都经济贸易大学
摘要:一种利用手机信令数据识别家庭关系的方法属于交通运输领域。家庭数据往往通过人工手段获取,存在调查周期长、调查范围小和耗费巨大等缺点。本发明根据手机信令数据识别出用户的居住地,并计算用户间的居住地距离,当两用户居住地间距离满足阈值条件时,对用户间的通话特征进行提取,包括夜间居住地相同的天数、通话天数、夜间通话频率和晚高峰通话频率等;根据夜间居住地相同的天数和通话天数两个指标,利用决策树初步将用户间关系分为两个类别:非家庭关系和可能存在家庭关系两大类;基于可能存在家庭关系的群体和少量已知关系的用户间的通话特征,利用KNN方法进一步判断该群体中用户间的关系。本发明可准确推测手机用户间的家庭关系。
主权项:1.一种利用手机信令数据识别家庭关系的方法,其特征在于包括以下步骤:步骤1:数据预处理:定义夜间时段为当日20:00:00—23:59:59和次日00:00:00—7:00:00,对用户Ui的信令数据按事件发生时间先后排序,提取夜间范围内的数据记录,根据定义的夜间序列,根据用户信令数据的时间将数据与相应的夜间时段对应,构建夜间数据集合B={Bi,1,Bi,2...Bi,m},Bi,m表示在第m个夜间时段用户Ui的手机信令数据构成的集合;步骤2:居住地位置识别:计算用户Ui的夜间居住地,以B为对象,第m个夜间内,用户连接基站所属交通小区AREAi,j的停留时长,一个周期内,通过对相同基站所属交通小区的夜间停留时间进行累加,选取停留时长最大的基站所属交通小区,作为用户Ui的居住地,记为和分别代表居住地的经度和纬度,即夜间停留时长最大的基站所属交通小区的质心坐标;步骤3:居住地距离比较:分别对其余所有用户Q={Q1,Q2,...,Qn},i≠n,n为自然数,且n0,进行居住地判断,即循环步骤1和步骤2中操作,并分别计算集合Q与用户Ui的居住地间直线距离其中为用户Qn的居住地位置信息,即用户Qn夜间停留时长最大的基站所属交通小区的质心坐标,取出D中元素小于1KM的用户,形成该用户的数据集Z,同时构建用户对集合其中,v为自然数,且v0,n为自然数,且n0,指用户Qv与用户Ui的唯一标识码连接起来的用户对;D中元素大于或等于1KM的用户则认为无家庭关系;步骤4:通话特征指标提取,计算集合QUi中每一个元素的特征指标,即每一个用户对的特征指标,包括以下四个指标:1夜间居住地相同的天数:夜间范围内,相较于非家庭成员,具有家庭关系的用户往往具有共同居住地点,因此提出“夜间居住地相同的天数”,记为即在T周期内,用户对的夜间居住地相同的天数;2通话的天数:相较于非家庭关系的用户,家庭成员间的通话行为更为稳定,提出指标“通话的天数”,记为即用户对在T周期内存在通话行为的天数;3夜间通话频率:由于家庭成员间的共同居住行为,夜间通话频率较少,与非家庭关系用户具有显著区别,提出“夜间通话频率”指标,即计算公式如下: 其中,指用户Qv与用户Ui在T周期内夜间时的通话总次数,指QUi中每一个用户对在T周期内夜间的通话次数的和;4晚高峰通话频率:定义晚高峰时段为17:00—19:00,并提出“晚高峰通话频率”指标,即指用户对在周期T内的晚高峰期间的通话频率: 其中,指在T周期内,用户Ui与用户Qv在晚高峰时段内的通话总次数,指用户对在T周期内的通话总次数;为QUi中每一个用户对构建特征集步骤5:利用决策树的分类规则,去除不可能具有家庭关系的用户,根据特征集合P中的夜间居住地相同的天数和通话天数两个指标进行判断,当两用户的夜间居住地相同的天数为0时,两用户间不可能存在居住上的家庭关系,当夜间居住地相同的天数大于0时,若两用户间在一个周期内的通话天数大于0时,则认为两用户间“可能存在家庭关系”,否则为非家庭关系,基于此,提取出“可能存在家庭关系”的用户对的特征集合,f为自然数,且f0,v为自然数,且v0,GfUi指用户对步骤6:基于KNN算法的家庭关系分类:根据人工样本中已知的家庭用户对和非家庭用户对,构建用户对特征集合W,同时标定用户对的关系, n为自然数,且n0,SaHa指用户对Laa指用户对之间的家庭关系标签,对“可能存在家庭关系”的用户对特征集合f为自然数,且f0,v为自然数,且v0,进一步使用KNN算法进行分类,过程如下:1首先,计算“可能存在家庭关系”的用户对特征集合 f为自然数,且f0,v为自然数,且v0,与已知标签的集合W中的之间的欧氏距离,计算公式为构建欧式距离集合E={E1,E2,...,Ea},Ea表示用户对与用户对之间的欧氏距离;2将欧式距离集合E按照距离值的大小进行递增排序;3选取前3个样本,确定前3个样本所在类别出现的频率并输出出现频率最高的类别;步骤7:家庭关系判别,当前3个样本中频率最高的类别为家庭关系时,此时用户对为家庭关系,当前3个样本中频率最高的类别为非家庭关系时,此时用户对为非家庭关系。
全文数据:
权利要求:
百度查询: 北京工业大学 首都经济贸易大学 一种利用手机信令数据识别家庭关系的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。