重入网识别原理探索

重入网识别原理探索

作者:艾达 罗爱平 单位:西安邮电学院通信与信息工程学院 中国联通上海分公司

重入网用户的识别原理是对比新增用户特征和离网用户在系统中记录的特征,如果特征符合判断条件,则认为该用户是重入网用户,如果没有符合特征的记录,则认为该用户为新增用户[6]。用户特征包括:用户资料,如姓名,身份证号;用户设备,如用户使用的手机的国际移动设备标识号码(InternationalMobileEquipmentIdentity,IMEI);用户呼叫指纹,如用户交往圈,频繁发生呼叫的地理位置等。较为简单的重入网用户识别方法是通过对比用户资料或设备特征实现的。用户资料,例如身份证信息,只能用于识别资料完整的用户,对资料缺失、伪造以及大多数无需登记资料即可入网的预付费用户无效。每部手机都有唯一的IMEI号,当用户拨打电话时,手机的IMEI会自动记录在用户的通话话单中,因此可以利用用户手机判别是否重入网。采用对比IMEI号码识别重入网用户,具有方法简单,速度快的优点。但通过调查发现,重入网用户手机更换率达32%以上[7],IMEI识别方法准确率较低,约为42%[8]。

用户的呼叫特征具有相对稳定性和个体差异性两个特性,可用于识别重入网用户。相对稳定性是指用户通话习惯,通话群体等因素在一段时期内相对稳定,发生改变的概率较小。个体差异性是指每个移动用户都有自己独特的通话习惯和联系群体,不同用户存在一定的差别。这种呼叫特征的相对稳定性和个体差异性就像指纹一样可以用于个体的识别。用户在使用移动产品及服务时,产生的各种行为和属性的综合表征称为呼叫指纹。呼叫指纹可分为用户交往圈、位置特征、消费特征、终端特征等多个维度。用户交往圈是与用户有通话行为的所有号码的集合。位置特征是用户在工作时间和休息时间活动较为频繁的小区标识等信息。消费特征是指用户的消费行为、消费水平等信息。终端特征是指用户使用过的手机终端信息。通过对用户原始话单的数据采集和加工,生成不同维度的呼叫指纹[5]。采用呼叫指纹识别技术,通过一系列的比较运算就可找到重入网用户,其重入网技术框图如图1所示。

基于呼叫指纹的识别算法

目前广泛采用的有效交往圈算法[2],综合运用了用户消费层次、交往圈、频繁活动小区、用户手机终端等4个维度的呼叫指纹,其识别步骤如下。

步骤1首先判断离网用户和新入网用户消费层次是否一致,将不一致的用户排除。

步骤2消费层次一致的用户判断交往圈匹配程度是否达到一定条件,满足条件则认为是重入网用户,不满足条件则认为不是重入网用户。

步骤3无法用交往圈匹配方法判断的用户,再对比其手机终端是否一致,如果一致则认为是重入网用户。

步骤4如果手机终端不一致,则判断频繁活动的小区匹配程度,如果位置信息匹配程度达到一定条件,则认为是重入网用户。

步骤5如果位置信息不匹配,则变更用户消费层次,重新执行步骤1。其中步骤1根据目标用户的消费层次大小,分别确定每个目标用户的有效交往圈成员数N,即那些与所述用户联系比较频繁且能保持长期交往的重要交往对象个数。步骤2使用用户的通话频率Freq,通话次数Num,通话时长Dura等参数,计算出用户交往指数Exp=f(Freq,Num,Dura)。

用交往指数排名前N个的号码作为用户的有效交往圈。计算离网用户与新入网用户有效交往圈交集的成员个数,并计算符合率,即交集成员个数占离网用户有效交往圈成员数的比例。如果符合率大于门限值,则认为是重入网用户;如果符合率小于门限值,但大于0,则属于不确定情况。此时,需要步骤3做进一步判断。交往圈余弦相似度算法在有效交往圈算法基础上[2-3],将当月离网用户和新增用户(分本网和竞争对手)分别作为待匹配集和目标匹配集,并按照位置信息和交往圈进行k-means聚类,形成待匹配识别的基础表。然后按照待识别号码的类别信息计算位置信息的重合度,找出目标集合中与待匹配号码相近的号码群,再通过计算待识别号码交往圈的重合度对号码群进行筛选,最后通过呼叫指纹找出匹配的号码,并用对比IMEI方式确认。与文[2]计算有效交往圈符合率的判别方法不同,交往圈余弦相似度算法分别加权计算共有交往圈号码的语音呼叫次数,语音呼叫时长,短信次数的余弦相似度最大值αj=βj=(t1,t2,…,tm)T(j=1,2,…,n),而n表示交往圈号码的总个数。另外,当k=1时,ti(i=1,2,…,m)为特定时间段内与某一号码通话(或短信)的次数;当k=2时,ti(i=1,2,…,m)为特定时间段内与某一号码的通话时长。当i=1时,m=7,表示通话行为的周特征;当i=2时,m=24表示通话行为的日特征(工作日和休息日)。当l=1时,交往圈取通话信息;当l=2时,交往圈取短信信息(此时k为特定时间内与某一号码的短信通话次数)。其中ωl为权值,根据用户的通话行为和短信行为动态选取,通常根据交往圈内的通话次数和短信次数的比例确定。根据式(1)分别计算待检测号码与目标号码集中每个号码的θ,如果最大的θ≥0.85时,即认为待识别号码与所对应的目标号码完全匹配,否则认为待检测号码离网或转网。

改进Hausdorff距离算法[4],用修改后的Hausdorff距离取代余弦相似度作为判别依据,进一步提高呼叫指纹比对的准确性。在改进的Haus-dorff距离中,认为两个集合匹配程度和他们的共有元素个数相关,并且不使用单个dH(A,B)衡量集合之间的距离,而取其中所有的dH和作为统一的判别。首先定义任意两个号码的相似度,其中Ω是所有可以连接元素a和b链的集合,kl为当前链的节点个数,M为给定的常数,tl为链l中所有节点元素通话时间的总和。改进后的Hausdorff距离定义为在计算复杂度方面,尽管该算法较以往的算法更复杂,但由于对待匹配样本集和目标样本集进行了聚类细分,且采用并行运算,因此整体的计算量略大于以往算法,在识别精度上有进一步提高。TF-IDF加权余弦相似度算法[5]与上述三种算法所采用的识别方法不同,采用结合TF-IDF加权与Cosine相似算法相结合的呼叫指纹识别方法。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。用于识别呼叫指纹时的实现步骤如下。步骤1使用TF-IDF算法获取某一个用户的话单中呼叫号码的TF-IDF值其中ni是号码i在用户D话单中出现的次数,分母是该用户话单中所有号码数之和,|D|是用户总数,|{d:ti∈d}|是出现有号码i话单的用户总数。步骤2将该用户话单用矩阵的形式表示,计算得到TF-IDF=TF•IDF。步骤3使用Cosine相似算法计算两个用户之间的相似度。通过对多个相似用户常拨打的(10~30个)号码的权重和相似度进行分析,从而达到判断是否为重入网用户。#p#分页标题#e#

算法比较

用户资料或IMEI识别重入网的方法最简单识别所需时间最短,但只适合于部分用户,且准确率低,因此通常作为交往圈识别技术的一个分项。采用交往圈匹配的综合识别方法[2],算法较为简单,且综合了用户交往圈、位置特征、消费特征、终端特征等多个维度,缩小了待识别用户范围,大幅降低了系统开销,提高了识别效率,根据电话外呼的验证结果,该方法的准确率为70%,目前该项技术已得到广泛应用。用余弦相似度衡量交往圈的匹配程度的方法[3],缩短了识别周期,将数据跟踪周期由一个月缩短到一周时间。同时在识别的准确度也有明显提高,外呼调查显示对重入网用户的识别准确率超过95%。采用改进的Hausdorff距离判别交往圈的方法[4]可使识别准确率进一步提高到98%。该方法的识别周期为一周,但算法实现较为复杂,实际使用尚有待评估。此外,直接根据用户话单,对比用户呼叫号码的TF-IDF余弦相似度识别重入网用户[5],并未采用上述三种算法那样的多特征识别技术,因此识别周期较长,达到三个月,其外呼调查显示识别准确率为70%左右。从表1可见,与以往基于用户资料或机器设备号的识别方式相比,基于呼叫指纹的识别算法准确率均超过70%,达到实用的程度。这些算法的识别周期从一周到三个月不等,其中交往圈改进Hausd-ofrr距离算法识别率最高,达到98%,识别周期最短,只有一周。

存在问题及解决思路

运营商已广泛使用重入网用户识别技术评估商发展用户的质量,并作为结算佣金的依据,但该项技术在实际应用中仍存在一定问题。

首先,识别算法的准确率缺乏客观评测标准。当前的呼叫指纹识别技术均采用电话回访或问卷的方式验证识别准确率。询问验证是一种主观评测方式,存在用户拒绝回答或故意隐瞒的可能,准确率与客服人员的询问技巧有很大关系,同一批重入网用户,不同人员所得的验证结果可能会有很大差异,所得识别结果并不能真实反映实际的重入网用户率。因此,运营商在考核商发展用户质量时,还不能完全把重入网用户识别率作为佣金结算的标准。

其次,评估指标不够完善。当前识别算法所指的“准确率”实际是检测率。即一批重入网用户中,被算法检测识别出的概率。而正常入网用户被判别为重入网用户的概率(虚警率)并未被考虑。仅用检测率无法准确描述识别算法的准确程度。

第三,算法的识别周期、易用性和准确率仍有待提高。识别算法通常需要一至三个月的时间来构造用户的呼叫指纹库,识别周期较长。第四,识别系统建设成本高。构建呼叫指纹库占用计算、存储资源较大,通常需要建设专门的识别分析系统,成本较高。相应的解决思路是:建立客观的算法评价指标和评价标准,能够科学准确地评估算法准确率;综合考虑多种用户特征,并优化各特征的加权系数,在降低识别周期的同时,提高识别精度;采用云计算技术[10]分配计算、存储资源,降低系统建设成本,这也是本文下一步研究的方向。

结论

通过对移动通信重入网用户的识别算法的原理、方法、性能以及实用中存在问题的了解,可以发现,建立统一客观的识别算法评价指标和标准,对综合多种特征对识别算法进行优化,有助于提高识别率,缩短识别周期,发挥重入网识别技术的实用效果。