(3)聚类计算:计算诈骗电话簇和主叫号码簇相似度,并与已确认的诈骗电话特征指标值进行匹配,但易造成广告营销等电话与诈骗电话较为相似,从而误判的情况。且通信信息诈骗形式多变,活跃期短,因而无法得到有效管控。

在5G背景下,由于数据流的数量和速度呈指数上升,识别和防止诈骗的数据处理的复杂程度也随之增大。

在数据源方面:由于5G 将大规模地提供物联网等微服务,因而数据库引擎必须能够从多个通道中提取信令数据,且支持多种数据格式。

在时效性方面:为了更及时有效地识别诈骗行为,需要在秒级别内自动应用数千个内置机器学习规则。

在准确性方面:为了阻止欺诈性交易和用户,底层数据库需要实时分析数千个属性,以做到实时智能和复杂事件处理,例如用户行为、地理位置、设备信息和交易类型等。使用内置机器学习算法,将这些属性与正确的行为进行比较,并在事件中识别和阻断、提醒。

基于上述问题,本文提出了一种治理通信信息诈骗的方法,可利用大数据中的Hadoop组件,实现5G时代下从信令中提取疑似码号的通信特征,而后利用XGBoost算法,通过对海量黑白样本的学习,建立一套诈骗案件识别模型,能够对通讯信息诈骗进行快速研判和处置。

2 系统技术架构

整体系统技术架构如图1所示。系统主要包含诈骗电话识别、受害程度判定规则及易感人群识别等三大模块。利用信令数据中异常主叫行为及事件链来识别诈骗号码,利用通话相似行为来识别通信信息诈骗受害人,并结合业务运营支撑系统(BOSS)数据中用户历史通话数据、身份数据和消费数据来对易感程度进行分级。

在诈骗电话识别算法中主要涉及到信令数据中的若干字段,提取用户的通话异常行为,并筛选该通话异常行为前后的通话行为,对与该用户有过通话的主叫号码和被叫号码进行标记,作为疑似诈骗电话集合。从信令数据、BOSS数据中提取疑似诈骗电话的全部通话特征,依据CART决策树和异常点检测识别规则对是否为诈骗电话进行判别。

若判别为诈骗电话,则筛选出与诈骗电话有过通话行为的所有号码,根据通话行为特征判别上述用户受害程度。

最后根据深度受害人用户通话和消费行为,对易感人群进行画像,从而实现对其他用户的易感程度分级。

利用机器学习方法建模对诈骗案件进行研判和处置

图1 整体系统技术架构

3 设计实现