共筑反诈防线「构建什么体系」

互联网 2023-05-09 09:49:06

今天给大家普及一下共筑反诈防线「构建什么体系」相关知识,最近很多在问共筑反诈防线「构建什么体系」,希望能帮助到您。

本文根据数美科技联合创始人&CTO梁堃先生在2018年DataFun算法架构系列活动—AI 在反欺诈中的应用实践所做分享《互联网反欺诈实践——构建立体攻防体系》整理编辑而来,在未改变原意的基础上略作删减。

导读:谢谢主办方,谢谢大家,我是数美科技的CTO梁堃,很高兴有机会跟大家做这样的一个分享。我是2009年毕业之后就去百度,然后在百度一直做到2014年,然后又去了小米的大数据团队,2015年数美科技成立的时候,来到了数美科技创业,我们公司主要做的就是给其他公司提供反作弊的服务,我们主要的客户来自互联网和金融。

今天主要分享的是互联网反欺诈的实践,重点是他的副标题,构建立体防御体系。

这是我这次分享的一个大纲,我会先介绍下背景,之后会讲两个经典的问题,然后重点介绍下我们的反欺诈体系。

--

01

背景与挑战

首先在14年的时候大家开始提出互联网 的概念,到现在真的在落实,我们发现互联网和人们的衣食住行,几乎每个方面都结合起来了,每个人每天花在互联网上的时间也越来越长,这样在互联网上的欺诈和作弊行为,也不停地在增加。

这是2015年的一个统计,其实我们想想一个新的互联网产品,从他诞生的那一天起,就面临着欺诈行为:

我开发一款app,不管是外卖的还是直播的,还是金融借贷app,他上线开始有这样的流量推广,于是第一件事情就来了,渠道流量有多少是作弊流量,当用户来的时候,有多少是注册,这些用户里面有多少是机器在注册,有多少是这种垃圾的注册,登陆的时候也有登陆的问题,比如说账户攻击,因为我们有很多账号关联了有价值的东西,包括一些支付行为或者优惠券什么的,有多少是盗号登陆,有多少是账户攻击;然后很多很多的营销活动,也在不停地在做,比如说抢个优惠券拉,因为排行前面有些奖励拉等等,刷榜我们管他统一叫做羊毛党,就是抢优惠券,刷人气,刷单的情况。

一般的平台都会让大家换个头像,换个昵称,或者是发一些评论拉,发一些帖子拉,发一些私信拉,这里面就会有大量的问题,就是各种各样的欺诈广告,其实有流量的地方就有欺诈广告,就好比我们走在路上,人流量大的地方,电线杆上总会有一些小广告,在互联网上也是一样子的,但凡有人气的地方,就会有导流,各种问题都在这里面出现。

在出现这情况的时候,我们来想想我们的对手他的核心利益是什么?

我们的对手他的核心就在盈利这件事情上,所以在互联网上两类最猖獗的灰色产业,他们在做什么,他们在获利,获利的方式主要有两种:

第一种方式就是我去参加各种各样的营销活动,在营销活动里面直接获利,或者是我跟某个店家,某个主播合作,帮她刷人气,主播获利,在把她获利的情况分给我,这是直接获利的情况;

第二种就是我们互联网上的经典模式,我就去上面发各种各样的导流广告,这些广告都是按点击付费的,导流一个人,活点击一次给多少钱,这就是我们的对手在互联网上最猖獗的俩种模式,而我们的对手也不再是原来的小作坊式的这种的刷单了,我们的对手也是在专业化的,他们也是上班打卡的,很多地方上班都是996制的上班工作日,这是原来的一个事例,就是发这种广告的,我们来想想,假如我要去做这种坏事,比如说最近比较火的直播答题,网上至少有三个项目,通过OCR去识别这样的题目,然后通过百度搜索自动获取答案的工具已经有了。

假如说我想做这样的坏事,我要怎么做呢?

首先,我一定需要账号对吧,那么第一个环节就是卡商,我可以去卡商那买一批手机号,去注册我的账号。

第二个就是VPN的供应商,VPN有可能是带着机房的服务器,也有可能是通过肉机服务器,因为不管是做广告还是答题,去刷渠道流量,刷广告,他一定会有个诉求,就是批量做,如果不批量做他的收益是非常非常低的,地说一个人全答对有怎么样,我获得3、5块钱的奖励,对我的收益太低了,发广告更是这样,发一万条的欺诈广告,他的点击率能有多少,1%甚至0.1%,所以他一定要批量做,如果批量的做,他就需要大量的账号,大量的行为,卡商提供了注册账号的一个关键资源就是手机号,但是这些账号的行为一定要分部在全国各地,所以他需要VPN的提供商,如果他只是从少数的vpn过来的话,其实是不需要我们提供这样的反欺诈服务的,每个公司的业务层面就可以直接干掉他了。

第三块就是软件的提供商。我既然有这样的批量行为,我靠手工操作还是太慢了,我通常都会有一些软件,包括这种批量控制的软件,通过批量控制来进行发广告,答题这样的操作,在软件提供商里还有另外一种软件叫篡改软件,这个后面我会提到,篡改软件他主要是在篡改设备,或者是篡改设备的信息,假设他只有100台设备,但是他可以通过篡改来变成1000台,10000台,甚至更多的设备。

其实这个产业他的分工是非常非常严密的,我们已经发现了一些事情,就是拿这个账号去发广告的人,答题的人,根本就是俩伙人,有一些他就是比如说在分享大会上,我只需要注册100个账号,我的任务就完成了,把这100个账号卖给下一组人,下一组人再拿这100个人去干别的事情,比如说去答题,最后一步就是真的去实施这种业务的欺诈行为,就想刚才所说的欺诈分为俩种,第一种统称羊毛党,不管他是刷单,刷优惠券,还是答题,他是直接或者和别人合作直接获得这样的利益;第二种就是贴出来的这种引流广告,他通过帮别人发广告,导流点击,按点击计费或者别的方式计费也好,去获得利益,当然广告的形式也分好多种,包括最原始的文本广告,你会发现文本的被解决以后,他们立刻会改变方式,包括图片的、视频的、语音的,比如说去年有一个ktv的应用,人们可以在上面唱歌,然后分享自己,他们怎么打广告呢,他真的是在唱一首歌,只不过这首歌唱到一半的时候,他就停了,然后开始去读一段广告词,读自己的手机号,联系方式,或者是微信号,读完之后在继续唱歌,这样即使是有人工审核的团队,如果不是把一首歌完整的听到尾,这种广告也是很难很难识别出来的。

这个数据应该也是2015年或者2016年的数据,就是国内的黑产从业人员应该是在 150万人左右,今天的话,我猜会更高。

刚才有同学说道用设备这块,用虚拟机这块,觉得成本太高,其实有很多作弊行为,他真的是在用真实的设备,为什么呢,他可以买一些比较便宜的设备,这种便宜的设备可能几十块钱到几百块钱买的,但这并不是关键,更加关键的是什么呢?就是这些设备可以重复利用,这些虽然都是100台设备对吧,就算我不篡改他的ID,今天我可以去刷小米的应用商店,明天可以去刷熊猫的优惠券,后天我可以去刷另外一家,在不停的在重复使用这100台设备,这样他的收益就会高于成本,一般情况下,如果我真的有100台设备,我都不用自己动手做这些事情,我只需要按天或者小时去出租这些设备就可以了,然后这些设备今天出租给这个团伙,他会干自己的事情,明天出租给另一个团伙,他又干另外一件事,唯一需要的就是我出租这些设备的时候都要记录上这些团伙都干了什么坏事儿,我只要不重复就可以了。

所以我们在做反欺诈的时候我们的目标与挑战是什么呢?

目标有俩个,第一个目标是用户体验,我们是第三方公司,我们在给别人做反欺诈的时候,我们是没有业务数据的,我们通常是从一些通用的行为去识别反欺诈行为,既然我不能从业务上给他们做一些变化,所以我们会更多的从用户体验上来,就是当用户在使用人家的业务,根本感知不到我们的存在,对正常用户的体验毫无影响,这是第一个目标。

第二个目标就是精准,我们在做反欺诈的时候整个产品系列都是实时拦截,就是能够非常实时、准确地识别这种欺诈行为。

说到反欺诈,其实历史上有俩种思路在做反欺诈,一种叫做Fraud Prevention(欺诈阻止),这个常见的方法就是大家常见的银行大额转账的那个方法,你需要硬件open,然后需要输入非常复杂的密码,他是假设用户每个环节都可能存在欺诈,我事先把完成欺诈行为的门槛提的很高,来阻止欺诈的发生,这种方式其实是和我们第一个目标用户体验是冲突的,他在大额转账的时候大家用的都很安心,但是比如说我们每次打车,都要插一个硬件,然后再输入密码,才能把这几块钱付完,这样的用户体验就太差了,所以我们自己在做的时候,我们用的是第二种方法,这个叫做 Fraud Detection(欺诈检测)。

第二个方法就是在满足我们这俩个目标,第一个我不会在用户做这个操作之前,先付出很高的门槛,硬件拉,验证码拉,不是这样,而是我让正常的用户更顺畅的,像平常一样去完成这个的操作,在他的操作过程中去实时检测他的行为风险,根据他的行为风险等级,做出不同的响应,如果风险很高的话,可能会做一个实时的拦截,我会告诉这次注册是有问题的,应该拦截,或者告诉客户这次注册是没有问题的,你应该把他放过,好的,这就是我们的俩个目标,一个是用户体验,一个是精准。

我们面临的挑战是什么呢?

首先是我们的对手,他们的专业技术水平在不断地提高,我们了解过一些对手的情况,他们真的是有固定的办公地点,有专业的团队在做这件事情,第二个就是,我们常常说模型。

说人工智能,说机器学习,但是有一件事情是这些东西都需要的,就是这种全局的数据支撑,我们很多客户他们其实是非常非常有技术实力的,他们在人工智能方面的投入也非常大,但是在反欺诈这块的时候他仍然会和我们合作的一个很重要的原因就是在全局的数据支撑,还记得刚才欺诈那个链条上第一个是什么吗,第一个是猫式号码,或者卡商,手机号接收验证码这件事情,他没有任何可以篡改的余地,手机号总也不能改,但是这个生意仍然能做下去,为什么?

卡商的一个核心的技术能力是什么,说起来特别简单,我有一万个手机号,用一个目录结构记住这些手机号在A公司在B公司注册过账号了,我只要把这件事记住就行了,假设你要去买这个批量验证码服务的话,你就要和卡商说你要在哪家公司注册多少账号,这时候卡商就会扫下这个库,看哪些手机号还没有出现在这家公司上,然后用这些手机号,从中挑选出1000个手机号来完成我的这次请求,其实这里面没什么技术含量,他就是把一个手机号在不同的地方在用,所以当你缺乏全局的数据支撑的时候,你就会面临一个很严重性的问题,一个手机号来你这里注册,不管这个手机号在多少家做过坏事,到你这都是一个新的手机号,都能正常的接收验证码,所以缺乏全局的风险数据支撑在业内也是一个非常头疼的问题。

第三个就想之前的同学说的一样,专业的反欺诈团队真的是不足的,在各个公司,每个公司都有自己主要的业务招的工程师,机器学习工程师,可能都是非常缺人的,所以反欺诈这块投入的更加的少,通常是业务团队分一小队来兼职做这件事情,最后一个就是上面这俩个目标其实是矛盾的,既要正常用户毫无感知,又要把坏的用户全都找出来,实践上来讲通过一组模型或者策略很难做到高召回率和低误杀率,很难同时实现这俩个目标。

--

02

两个经典问题

我先从俩个经典问题入手。

第一个就是应对广告的问题,当我们在做内容作弊的时候我们会提到一些色情内容啊,一些涉政、爆恐等等其他的,但是整个平台上出现的最大量的问题其实就是广告,广告是直接给灰色产业带来利益的,而广告出现的场景也会非常的多,比如说一个头像,一个昵称,他的私信,他的评论,如果他在群聊的话,在群聊里出现的一些问题,这就是通过内容的层面可以解决很大一部分广告的问题,这块儿会用到很多技术,当然深度学习我们也在用,但是深度学习只用到了其中的一个方面,而经典的机器学习算法,比如说svm还是非常有效果的,大家在解决问题的时候,不用一味的追求这种深度学习的算法,深度学习在图像处理,在语音处理,以及在长范围的自然语言理解上确实很有用,但是在一些短句上的分类像SVM经典的模型他的准确率和召回都可以做的非常高。

要解决这种内容的问题,他面临两个问题:

第一个核心就是语义,我们尽量去理解这个内容的语义,因为自然语言这件事情相对复杂,同样的一个词或者短语当在不同语境中他的含义是完全不同的,如果用关键词或关键词组合去做这件事情是很复杂的,第一个问题是他会造成大量的误杀,很多发东西发不出去,针对语义这块该如何去做?想长范围语义的理解用svm效果很一般,这时候我们尝试使用深度学习的算法,像lstm他非常擅长去理解记忆相对较长的语境,另外我们要去识别短句,这时候使用svm是非常有效的。在这个过程中,并不寄希望于用一个模型或者是一组规则,或者是在一个点上去把所有的坏人都拦住,把所有好人都放过去,当一个文本发出来之后,我们在用lstm模型去捕获他的长范围内是否有问题,同时用svm去捕获他当前这段内容里面是否有问题,是不是欺诈或者色情小广告。

第二我们是有对手的,我们的对手发现自己的那些广告点击率降低了,他马上意识到我的广告其实没发出去,比如说在直播间有这样的一种服务,就是你发一段话你自己是可以看到的,但其他人不一定看的到,当对手在检测的时候,他有时会看点击率,或者用另外一个手机看他的广告是否真的发出去了,一但拦截一条广告,你的对手是非常清楚的,他几乎在秒这个级别就意识到自己的广告发不出去,所以他一定会变,这里面就涉及到了一个对变体的识别,说道这块的时候,我确实觉得人脑是及其厉害的,当你在做这种变体的时候,比如说下面微信的各种诡异的变体,各种欧洲语言里面的变体,比如说某个欧洲语言看起来很想0其实他根本不是0而是一个诡异的字母,这种变体出现的时候,会对正常的svc或者lstm造成影响,怎么办?

这块我们用了一些图像技术,比如说Char&Word Embedding,这俩种都在用,然后靠相似度去识别这种变体;第二种就是用序列标注,在有变体的同时还有干扰,比如说在中间插入一些诡异的字符去干扰你的切词系统,试图干扰你的模型,这个时候我们会用CRF这种序列标注的方法,去尽可能的把这种诡异的字符标注出来,然后把他去除,然后开始进行切词等别的处理方式。

这其实我们去年就开始做了,通过这件事引发了我们的一个思考,就是我们在用机器学习去解决这种反欺诈的问题,但是今天我们所有的机器学习,不管是深度神经网络还是GBDT,SVM还是随机森林还是别的什么机器学习,他有另外一个名字叫统计学习对吧,这中机器学习算法对他解决问题是有假设的,他的问题用的特征也好,样本也好,他的分布在统计上是相对稳定的,所以机器学习才能把相对稳定的pattern学出来,才能做些东西,那我们来想一想我们的对手他的行为是否在统计学上稳定分布的呢,这个是随机的,所以在用机器学习尤其是统计学习来解决这种欺诈问题的时候,你要想这个问题,他底层的分布是否足够稳定,所以我后面会说到另外一个技术,就是泛识别欺诈这件事情上,传统的方式可能会遭遇挑战,他不是没有效果,仍然是有效果的,但是你可以用到更多的新方式,我们在17年初的时候引入了非监督的学习(Unsupervised Learning),这是为什么呢?这是因为做坏事的人不停的在改他的关键词,几乎不太符合一些稳定的分布,但是正常人不会改变自己的说话方式,不会特意改变自己的行为,他们的各种行为在统计学上是极其稳定的,所以我们引入了这种非监督的异常检测(Anomaly detection)算法,又从这个维度去识别一些异常点,刚才说的是内容反欺诈的行为,虽然我主要说的是文本的,但是普遍语音、视频都是类似的。

第二大类问题,我们管他叫行为反欺诈,就是在行为上的作弊,他的历史比较久远,包括渠道推广的时候,注册的时候,无论他是发广告也好,还是羊毛党也好他总要有账号,所以注册这块我们会去识别一些机械的或者IP注册等等,第二个就是大量的盗号行为,我们就在登陆这块去识别像撞库攻击、盗号登陆这样的事情,最后就是真正的业务活动,比如说抢红包拉,刷人气拉,说道刷人气,之前直播不是很火嘛,我们也有一批直播客户,一个直播间的人气决定了这个主播要排在什么位置,主播排在什么位置是和他的收入直接相关的,我们发现有一些刷机是这么刷的,他的登陆行为确实是人在操作,花了14s-20s之间完成登陆,每个账号都是人工登陆,但是登陆之后就是机器在刷机,我们在和客户建议在删除人气的时候可以把完全没有行为的这样的人气给降低,然后第3、4天发现这些挂人气的账号开始发言了,发言是什么呢,通常会从网上一些论坛抓一些正常的对话,然后俩三个人对话,好这是刷人气,刷榜也好,抢优惠券也好,他最后总是有这样的行为,所以当你在识别这些问题的时候,对行为的反作弊就成了关键点,而对行为来讲许多传统的技术已经在不断的被突破,比如说想渠道推广这块,比较传统的方式比如说看渠道的留存率,看他低价机群的比例,看他更新的频率,这个可以说已经妥妥的不起作用了,如果有一个黑产团伙还突破不了这个,那确实太弱了,留存率很简单,7日留存,3日留存,21日留存什么的,其实对手在刷这些渠道流量的时候,他不是说安装结束之后这笔钱就结束了,他还会同样的一批硬件信息,在后面再次完成登陆等其他的一些活跃行为,使得他看起来好像是活跃的,第二个就是验证码,特别是手机验证码,是特别容易突破的,就是刚才我们说的卡商,也叫猫式号,注册起来完全不费力,一批批的,注册的时候文字验证码或者图片验证码,针对他们有种服务叫打码平台,有利益就能标准化平台化生产,打码平台是什么呢,你只要一查验证码,这个验证码本身会被捕获起来会传到另外一个平台上,另外的平台上全都是真实的人,那边的人会划一下,或者打上码,再传回来,我们再去注册,这就是打码平台。

所以,行为方面的反欺诈,我们要做的核心就是识别对方到底是一个人还是机器人,我们可以把他想像成被动的语音测试,如何解决这件事情呢,那我们就要抓住他的核心点,作为黑产,我要搞一件事情,第一件事情就是要大量的设备,如何搞到这么多设备呢,无非这几种途径:第一种我用虚拟机,这个成本是最低的,这个方法有个严重的漏洞,就是当你的虚拟机架构和CPU架构不一致的时候,可以通过检测cpu架构的方法,来识别7-80%的虚拟机。

第二种,当你的虚拟机被识别出来,你就只能上真的设备,从我们现在所有case里,只要使用真实的设备,大家都会想办法提升利润,都会篡改他,无非就是买100台手机,我做一次,然后重新把他的硬件篡改一遍,我再做一次,然后我再篡改,我不断的篡改,在服务端就会出现无数个设备,所以真机篡改就是个很核心的东西,他家想象过真机篡改可以怎么篡改,无非就俩种情况:

第一种情况叫Hook模式的篡改。因为在读硬件信息的时候都是在调库函数,熟悉测试框架和熟悉Hook框架的同学都知道,当你在调这个库函数的时候,比如说我可以预先加载一个栈,这栈里有完全一样的一个名字的类和他的函数,那么你在调用的时候很可能先调用你加载的那个栈,或者在C语言里有很多动态,我可以把我的动态加载到系统动态之前,当你在调函数的时候其实调的是我的函数,那我想反馈什么就可以反馈给你,所以只要我有真实的设备信息库,Hook模式的篡改,篡改出来的设备跟真实的是一模一样的,但是Hook也存在一个巨大的问题,那就是他的地址空间,因为你要完成Hook,你在地址空间一定加载了一个有问题的点,所以可以通过扫描地址空间的特征来识别这种Hook。

第二种就是刷机。这里面他的地址空间是有效的,但是他在统计学上留下了巨大的漏洞,这是因为一台手机上不是所有的硬件型号都能被刷的,我可以统计三星的某一型号ABC,他有不同的供应商给他提供,但是他型号下面的硬件信息的组合总是有限的数字,当这个组合总是有限的数字,我就可以统计了,当出现小概率事件的组合,那这个设备我们基本上可以确定是篡改的,这就是篡改设备,当然这只是一些方法,识别设备篡改还有另外一种方法就是设备指纹,设备指纹很核心的东西一个就是唯一ID,他的思路是什么呢,他是由俩个相互冲突的指标来衡量,第一个指标是稳定性,第二个是重码率,如果是俩个设备,不管这俩个设备怎么接近,他也不应该是同一个IP,假如可以做到唯一IP,我们可以看到这个设备是不是唯一标识的设备,是不是做过篡改都可以做到,那怎么搞定唯一IP,通过多个弱IP不同的组合来达成他唯一的IP,来降低重码率。

所以当我们在做这个识别的时候,我们用到的技术包括:监督学习GBM模型,会通过软件的特征,硬件的特征,行为的特征等等,去把这种特征做出来,然后第一个在识别虚拟机的时候用GBM模型;

第二个是采用异常点检测、设备相似性来识别篡改设备,设备相似性检测,可能某个IP很弱但是我把更多的IP行为组合上去,让俩个设备足够相似,就是重码率非常低的时候,如果识别出来他们俩个一台设备,来个设备的硬件信息又不同,那么可以判断出来,他其实是经过篡改的,第三个设备农场,就想刚才有张图,一个机架上好多手机在排着,要么是人在操作,要么是用群控软件来操作,说一个简单的策略,我们看同时扫描到的wifi热点上的设备是否有集体行为;

最后就是关联分析和结对分析,刚刚有说到,这群搞欺诈的人天天和我们对抗,不断的刻意的在改变自己的模式,所以这就会出现一个问题:他的很多特征在统计上分布其实都不够稳定,他直接影响了我们很多机器学习模型的性能。

但是做坏事的人,他总是要重复使用一些资源的,什么是资源,设备是资源,IP是资源,手机号是资源,甚至一个公司一个平台上的账号也是资源,一个账号是有生命周期的,一个账号被注册出来,首先直接参与的就是抢羊毛,或者答题这样直接赚钱的事情,他直接参与这种能够直接获利的行为,当直接获利的行为,已经被封得差不多,这个账号会流转到下一部分人的手上,再做其他行为,这个账号生命周期的最后一个环节,就是发各种各样的欺诈广告,把他最后的一点价值挖掘出来。

所以做坏事的人员,他要想最大化自己的收益,最小话自己的成本,意味着资源要复用,设备要复用,IP要复用,账号要复用,手机号要复用,对于反欺诈有的时候有监督的统计学习模型不太好用,但是图算法会非常的好用,他要复用资源,这些资源之间都会存在关联,假如说一个wifi上连接10个设备,你都不用看这些设备是真的使用的,还是一个设备篡改出来的10个,前7个设备都在发广告,剩下3个设备还不知道是有问题的吗,对吧?

这是一个简单的应用,所以在图挖掘,PageRank风险传播算法在用,召回的最大团挖掘我们也在用,在用的时候不用真的挖最大团,只需要挖3、4个点构成的一个团,就足够了,把团挖出来之后,剩下的事情交给PageRank风险传播算法,所以关联分析他是基于图的挖掘算法,他是一种类似有监督的方法,尤其是灰色产业在使用关键资源上,以这样的节点为关键点来算会非常有效;

第二个是结对分析,他也不是互联网首创的,之前在做交易反欺诈的时候,结对分析就是一个非常重要的手法,就是通过一组人,如果他们的行为很像,如果有一天某个账号突然行为异常,你就会知道他可能被盗号了。

--

03

反欺诈体系

其实整个反欺诈里面,他的俩个核心就是内容和行为,那么孤立看这俩个问题是都解决不好的,永远不要寄希望于一个特别厉害的模型,或者特别厉害的点,业务方法,把所有的问题都能解决,就想刚刚说的虚拟机拉,或者是篡改,他都能解准确率,召回率,重码率等到90%其实就差不多了,在往上提就要花费非常非常大的代价,那怎么办呢,很简单,就是我不靠某一个点,不靠一个模型,不靠一个技术去反欺诈,我要的是一个体系。

体系是什么,首先你要有一个布控体系,一个人的行为总要启动、注册、登录,业务行为等,通过这些行为来完成不良的事情,我并不需要在某一个环节干掉所有坏人,我只能说在启动的时候看几个点,比如虚拟机在60%怎么办,我会把他分打的很低,在注册环节放过他,然后看他后面的行为,很多情况是注册的和实施行为的人根本不是一伙人,如果一个正常的用户发广告打分超过1.95我才拦截,而如果是一个60%虚拟机的用户可能打分超过1.5我就会拦截,也就是说通过层层拦截,能准确拦截的拦截,不能准确拦截的通过打分,标签,或者风险属性给他打上,再由后面去处理,这就是我们的布控体系。

第二个就是数据体系,有俩个核心问题,第一个就是在多个行为之间,把风险特征共享,第二个就是图挖掘,最核心的四个事情,包括账号(他是一个公司内部的打分,不会跨公司不会打通)还有设备、IP、手机卡,这四个事情怎么弄,是在用HBase,存法也比较简单,首先我有四个实体,每个实体都对应一张属性表,第二个实体之间关联的关联表,通过这个来构建一个知识图谱,也可以用PageRank这样的人工风险传播限制,效果也是很好的。

第三个是策略体系,这个是我们实际的引擎的架构,我们叫做BE和AE,BE是基础引擎,每一个基础引擎,有的可能是简单的模型,有的可能是深度学习模型,每一个BE都从一个方面去判断当前事件在这个方面的风险,BE的输入是原始风险,BE的输出是他在这个方面的评分和高级特征,基础引擎里有俩个比较特殊,一个是历史画像,一个是实时统计画像,在上层利用的时候可以将二者整合起来,可以对一些出现的实时问题做这样的及时响应,这是基础引擎,他是不针对业务场景的;到高级引擎,就是针对各种业务场景做,这一层比较简单,他是一些简单的树模型,和人为的规则,这就是我们的策略体系。

整个的反欺诈体系分三大块,第一块是布控体系你要在哪些业务的关键点去做这种欺诈的检测,这个要想清楚,他不是每一个点都需要检测;第二个就是我们的数据体系,你的数据应该是一张图,数据永远都不是孤立的,数据是一张图,而且带时间的;第三个就是策略体系,在底层从某一个方面来控制风险,然后在上层从全局来控制风险,来做出最终的判断,在高级的那一层一定要加上规则系统,当模型失效的时候,或者冷启动的时候规则系统都是很有效的。统计系统为主,规则系统为辅。

今天的分享就到这里,谢谢大家。

关于我们

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100 线下和100 线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800 ,百万 阅读,14万 精准粉丝。