1. 首页 > 贷款攻略

风控特征—时间滑窗统计特征体系

风控业

务背景俗话说,路遥知马力,日久见人心。在风控中也是如此,我们常从时间维度提取借款人在不同时间点的特征,以此来判断借款人的风险。在实践中,这类特征通常会占到80%以上。由于是通过时间切片和聚合统计函数来构造,因此一般被称为时间滑窗统计特征。本文的主要意义在于:对于需要入门风控建模的同学而言,希望

俗话说得好,日久见人心,日久见人心。在风险控制中亦是如此,大家常从时间维度获取贷款人在不一样时间段的特征,为此来判定借贷人风险性。结合实际,这种特征一般会占据80%之上。因为是由时长切成片和汇聚统计函数公式来结构,因而一般被称作时长滑窗统计特征。

文中的重要目的是为了:
对需要新手入门风控建模的同学们来讲,希望能够帮助到你快速入门特征工程项目。对已有特征工程经验的同学们来讲,期待能给你带来一些风险控制业务理解。文件目录
Part 1. 考察期、切入点及主要表现期
Part 2. RFM模型详细介绍
Part 3. 时长滑窗总数统计类特征
Part 4. 时长滑窗占有率统计类特征
Part 5. 时长滑窗发展趋势统计类特征
Part 6. 时长滑窗可靠性衍化特征
Part 7. 第三方双头借贷自变量衍化
Part 8. 汇总
感谢
版权声明
参考文献
了解这三者这个概念是风控建模早期样版精心准备的基本,在这里简要介绍。
切入点(Observation Point:并不是是一个具体时间点,而是一个时间区间,表示是顾客办理贷款的时间也。在这个时间范围办理的顾客很有可能会就是我们用于模型的样版 。(提醒:为啥“很有可能”这一叙述,由于还需要去除一些强标准击中的非常样版,这一部分样版将无法添加模型)考察期(Observation Window):用于结构特征X的周期时间。相较于切入点来讲,是历史时间时长。考察期的挑选取决于用户数据库的薄厚水平。一般数据信息越硬,可提取信息内容就会越全方位、靠谱。主要表现期(Performance Window):界定优劣标识Y的周期时间。相较于切入点来讲,是将来时长。因为风险性必须有一定时间窗才可以表达出来,因而贷款风险具备滞后效应。主要表现期长度能通过Vintage分析与翻转率剖析来决定,在这里不想做进行。图 1 – 考察期、切入点及主要表现期
主要表现期越久,信贷风险曝露将越完全,但代表着考察期离现阶段将越来越远,用于获取样版特征的历史记录将越老旧,模型样版与未来样版的差别也就越大。相反,主要表现期越少,风险性还没曝露彻底,但好处就是能用到更靠近的样版。
RFM模型最开始就是用来考量顾客价值跟客户得盈水平。了解RFM架构的理论是结构统计类特征的前提,其意义为:
R(Recency):顾客最近一次买卖交易的时间间距。R值越多,表明顾客买卖所发生的日期越长,反之表明顾客买卖所发生的日期越近的。F(Frequency):用户在最近一段时间内买卖消费次数。F值越多,表明顾客买卖越经常,反之表明顾客买卖不足活跃性。M(Monetary):用户在最近一段时间内买卖消费额度。M值越多,表明顾客价值越大,反之表明顾客价值越小。
针对不同数据库,我们能统计获得不一样的内容RFM特征。比如:
运营商数据:用户每日的通讯记录次数、时间等。银行对账单或电子商务交易信息:用户每日买卖交易订单数、额度等。埋点行为数据:用户每日在其界面的访问量、浏览量等。机器设备数据信息:用户每日的登录、活跃性次数。
为了能拓展更多层面,大家经常维护保养一个归类名册库(或归类评价指标体系),可参考《信贷风控中的名单库挖掘、使用和维护》。下面,我们就能再次细归类目来统计。比如:
银行信用卡交易信息:用户天天在孕婴用品、城市交通、餐馆、美容美发等买卖订单数、额度。机器设备App数据:用户手手机上下载的借贷类、生活服务类、运动类、音乐类等App的总数。
以机器设备App数据为例子,我们将要统计获得如下所示数据信息:
图 2 – 截至提交订单日,用户每日统计的App数量
必须注意的是,大家需要根据业务流程去数据分析,数据信息由于业务流程就具有环境温度
敲黑板划重点1——掌握数据收集逻辑性
特征是以原始记录中获取的数据,假如数据库收集就存在的问题,那样所结构的特征也必定有什么问题。
对于一些收集客观性、可信赖的数据库来讲,剖析全过程就较为简单。比如,假如用户某一天并没有通电话,那样这一天的语音通话次数为0,主要是因为营运商客观性保存了用户的原始记录。此刻,0的内涵便是用户在当日没有语音通话个人行为。自然,针对用户使用别人打电话这样的事情,一般不在决定范围之内。
针对取决于用户登录、活跃性个人行为才可以收集到的信息,就更加需要根据收集方法去分析。比如,设备在App数据中,假如某一天统计获得用户安装借贷类App为0。这个数后边很有可能有什么原因吧?可能性的猜测有:
1. 统计函数公式基本原理:用户这一天并没用手机,造成数据收集上缺少。但SQL中count()函数公式在统计时会count(null) = 0,换句话说会把缺失值添充初始值为0。2. 用户应用个人行为:用户用了新安卓机,数据收集正常的,但确实没有组装借贷类App,因而用户层面统计数值0。或是,用户用了老安卓机,但积极卸载了全部借贷类App。3. 数据采集技术:用户用了iPhone,因为无法收集到App数据,就算手机具体装上借贷App,但统计值又为0。4. 自变量结构逻辑性:尽管手机上下载了借贷类App,但是并不在您的借贷App名册库文件,因而配对数达0。
那么究竟哪一种原因吧?对于这类猜测,我们要从下列层面进行证明:
用户当日是不是活跃性?用户应用机器设备是不是发生一个新的UMID(机器设备ID)?用户应用机器的服务平台(iOS / Android)?名册库是不是好久没有维护保养?
这就是必须融合业务流程工作经验对好几个特征交叉式衍化新特征的主要原因,这类特征具备强业务含意,因而往往能够发挥其很好的效果。
敲黑板划重点2——界定考察期实效性
还需考虑到考察期实效性,和不同用户的信息薄厚水平
例如,如果一个用户手机号码网龄才6个月,那在统计近期6个月、12个月、24个月的通讯记录次数时,显而易见这些因素的标值都是一样的。
同样,针对手机号码网龄各是6个月新的用户和6年的老用户来讲,“近期12个月的通讯记录次数”这类特征是不合理(unfair)的。二者的数据信息薄厚水平不一样,新用户的考察期事实上仅有6个月,而老用户的考察期是12个月。
因为区别这样的事情,有如下提议:
1. 界定考察期实效性,在时间滑窗统计时,更应该有意识的空出高效的考察期。
2. 界定分群自变量。例如将数据有效期限仅有6个月和12个月的用户分为2个人群。
在获得总数统计类特征后,我们继续衍化占有率(ratio)类特征,一方面主要用来除去量纲危害,另一方面考量用户的行为偏好。比如:
近期N个月内母婴类交易次数占有率 = 近期N个月内母婴类交易次数 / 近期N个月内交易次数
假如用户在某种交易次数或是额度占有率上有明显趋向,咱们就更能够掌握用户消费的行为偏好和其它特性。例如,假如用户的母婴类总支出占非常大,用户也是有娃一族,风险性也会相对变低。
因为一个人的认知会变化规律的,考量这类趋势分析针对风险分析也非常重要。比如,针对借贷人双头借贷风险性,假如双头指标值展现逐渐上涨的发展趋势,咱们就感觉双头债务风险性持续上升。贷款人通常会采用“拆东补西”的举措,如果哪一天连东墙也找不到拆,这一击鼓传花的网络游戏可能就game over。
我们一般测算直线斜率(slope)去衡量这类趋势分析。比如:
双头借贷发展趋势 =(当月的双头借贷次数 – 上一个月的双头借贷次数)/ 上一个月的双头借贷次数
在各个时间段统计的总数特征前提下,我们能再次考量用户个人行为的稳定。
在数学上,我们一般能用离散系数(Coefficient of Variation,CV去衡量这类数据波动水准。离散系数越低,意味着起伏越低,可靠性就越好。
离散系数的计算公式:离散系数 C·V =( 相对标准偏差 SD / 均值Mean )× 100%
比如,针对借贷次数,我们能测算CV去衡量借贷个人行为的稳定。
此外需注意,针对不断双头借贷的朋友们,实际上风险性并不能非常高,由于有长期稳定的借贷方式。但是对于集中化的爆发双头借贷个人行为,咱们就更应该进行关心。其背后动机,有可能是手头上突然紧张(例如网上赌博输了钱),有可能是破罐破摔,有可能是早期埋伏忽然暴发,有可能是领域大环境危害。
据小编了解,目前市面上所提供第三方双头借贷数据信息一般包括下列自变量:
贷款人近期7天、1个月、3个月、6个月、12个月、18个月、24个月的某种服务平台借贷次数
某种服务平台包括:金融公司、网络金融企业、银行贷款业务、数据风控企业这些。
依据这种初始自变量,我们能依照之上科学方法论衍化一些新自变量。比如:
如何以“近期7天双头借贷次数 / 近期1个月的双头借贷次数”,我们便可以确定借贷人时间维度里的借贷个人行为遍布。这一自变量标值越多,意味着最近借贷集中化,短期内风险性更高。
如何以“近期1个月的银行贷款业务借贷次数 / 近期1个月的双头借贷次数”,我们便可以确定借贷人在借贷服务平台维度的遍布。这一自变量标值越多,能够觉得越趋向正脸。
使用这种自变量时,还需考虑到第三方数据企业所连接的中介机构数的改变。换句话说,假如连接组织数在稳步增长,那样总体人群双头借贷指数值也有可能往高分数偏位。
文中系统总结了时长滑窗统计特征的结构科学方法论,及其对应的业务理解。总体来说,我们首先统计总数,又从占有率、发展趋势、可靠性、集中化等方面去衍化。自然,最重要的一点可以多融合业务流程进行思考。
感激参考文献作者带给我的启迪。文中还有了解不妥,在这里毛遂自荐。
喜爱转截共享请在文中标明作者和连接,感谢你们对传统文化尊重与对文中的认可。
创作者:实事求是汪走在路上(知乎问答ID)
连接:https://zhuanlan.zhihu.com/p/85440355/
️版权归原作者全部。商业服务转截可联系创作者得到受权,非商用转截请注明出处,侵权行为转截将追责相应责任
felix:JDATA京东商城算法大赛新手入门(score0.07 时长滑动窗口特征+xgboost模型)zhuanlan.zhihu.com高级内容运营 | 怎样用RFM模型完成用户分层管理方法(附实例)|强烈推荐个人收藏www.douban.com「回望」自动化技术特征工程和全自动建模在风控场景下的运用mp.weixin.qq.com
在其网络金融企业从业风控建模、风控系统、大数据挖掘等方面工作,现阶段专注于将社会经验干固共享,量化分析成长轨迹。热烈欢迎沟通交流

本文由染其发布,不代表九财网立场,版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除

在线客服
服务热线

服务热线

zxwl56

微信咨询
九财网
返回顶部
X九财网

截屏,微信识别二维码

微信号:zxwl66

(点击微信号复制,添加好友)

  打开微信

微信号已复制,请打开微信添加咨询详情!