3.1 诈骗电话识别模块
该模块用于精准识别诈骗电话。对于被网络爬虫标记且具有异常通信特征的用户,采用CART决策树模型进行识别。而对于活跃期短或新出现的诈骗电话,利用用户异常主叫及其前后通话行为事件链模型进行识别。
3.1.1 标签样本爬取及样本标记
由于大量已标记的诈骗/骚扰电话样本获取困难。因此采用网络爬虫的方式,将所有样本号码提交到360、百度等网站,利用这些网站自有的黑名单库对样本号码进行检测,爬取被各种手机助手标记的疑似诈骗/骚扰号码信息。将这些可疑号码信息导入数据库用于模型训练。
由于用户在各种手机助手标记手机号码时的不确定性,采用以下方法来提升标记结果的准确性。
(1)当360和百度对同一号码标记,得到的结果相同时,采用该标记结果。
(2)当360和百度对同一号码标记,得到的结果不相同时,对该号码在行为特征上进行分析,选择行为特征逻辑上与标记结果比较符合的作为最终标记结果。如号码1822553****,在百度上标记为骚扰电话,在360上标记为正常号码,从数据库中分析此号码通信行为特征可知,该号码在一天内主叫通话次数14次、主叫率1、主叫联系人个数14、主叫外地联系地个数14、被叫通话次数0、回拨率0、联系人/通话次数比例1等,不太符合正常手机用户的通信行为,因此将该号码标记为骚扰电话。
3.1.2 特征选择及特征统计分析
考虑到诈骗/骚扰电话、响一声电话、呼死你电话在通信行为上与正常电话之间必然存在某些区别,而且这些电话多为主叫,因此选取以下通信行为特征(包括主叫通话次数、主叫外地通话次数、主叫率、主叫联系人个数、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、被叫通话次数、回拨率、活动基站数、联系人/通话次数比例等)进行统计分析。
对某一天某个省的信令数据进行统计分析,以下通过表格的方式对4种号码类型的各项通信特征的统计值进行具体展现,如表1所示。
表1 4类号码通信特征统计值
选择统计分析下较显著的特征(主叫通话次数、主叫率、主叫外地联系人个数、主叫外地联系地个数、主叫通话频率、主叫通话时长、回拨率、联系人/通话次数比例),将两两特征进一步关联分析,用图2直观地展现这4种号码类型在特征上的区别。