信用评分方法在信贷风险管理中实践

信用评分方法在信贷风险管理中实践

摘要:信用评分是金融机构对信贷客户进行风险评估的基础工具。信用评分的理论和实践经过近半个世纪的发展,已经逐步成熟的应用在银行的贷前审批、贷中、贷后的风险监控中。信用评分主要包括申请评分、行为评分和流失评分。信用评分的全流程包括数据准备、数据预处理、探索性分析、变量选择分析、模型分析、信用评分转化和模型部署等流程。随着人工智能的发展以及更多的数据维度的使用,金融机构将通过信用评分进行更加精细化的管理,快速有效地评估企业和企业主的信用风险。

关键词:信用评分;风险;logistic回归

一、信用评分的发展历程

信用评分从狭义来讲主要是信贷机构在发放贷款时通过科学的评估方法对历史违约样本和非违约样本进行分析建模,从而构建违约概率模型,对每个潜在的贷款客户进行违约风险评分。从广义来看,信用评分可以应用到社会信用评估的各个领域,比如公共信用评分、学术诚信评分、招投标诚信评分等等。随着移动互联、机器学习等信息技术的普及以及海量互联互通的信用数据的产生,信用评分已经渗透到每个人的工作、生活、学习的各个领域[1]。美国工程师Bill Fair和数学家Earl Isaac在1956年设立了Fair Isaacz咨询公司,即后来著名的FICO公司,1958年他们制作了首批申请评分卡,主要面向消费金融公司。20世纪60年代中期,许多石油公司出现了信贷违约风险问题,因此,他们开始引入信用评分。包括信用卡机构在这个期间由于无序竞争也产生了巨额损失,因此也开始纷纷引入信用评分。自引入评分卡以来,违约率下降了50%。1972年FICO帮助Wells Fargo开发系统实现了信用评分的自动化。并且在1975年首次完成了信用评分系统。随着信息技术的发展,除了消费信用领域,信用评分也在其他领域进行了应用。1993年,FICO公司开发了一种面向小微企业的信用评分模型。1995年信用评分首次应用在住房按揭证券化业务中。从2000年开始,贷款机构开始意识到个人贷款和小微企业贷款差异不大,信用评分开始在小微企业中普及。由于巴塞尔协议规定银行需要拿出一定资本用于覆盖客户在违约时由信用风险带来的损失,而信用评分可以转换成违约概率,因此信用评分也成为金融机构计算资本金是否满足最低资本要求的工具。近年来,新兴的方法如神经网络、支持向量机、随机森林等开始引入信用评分领域[2]。

二、信用评分模型的主要数据来源

随着金融科技行业的发展,信用评分可以使用的数据源也越来越广。目前信用评分主要数据源包括银行存量数据、用户提供数据、人行征信数据及第三方征信公司提供数据这四个部分。由于用户提供数据需要鉴真去伪的难度较大,这部分的数据主要作为校验比对。真正纳入评分模型的主要是另外三个部分的数据。2020年1月19日人民银行二信系统正式上线,与一信系统相比,二信系统在信息采集、产品加工、技术架构和安全防护方面,均进行了优化改进[3]。目前已经作为金融机构判断用户风险的主要数据来源。互联网技术的发展也培育了大量的征信机构,这些机构拥有及加工的信用补充数据也成为金融机构风险建模的一个重要补充部分,比如黑名单筛查、四要素认证、多头借贷名单、反欺诈排查等等。银行内部也开始构建自己的大数据平台,其沉淀的违约客户数据、客户KYC数据等也成为建模的重要数据源。国家发改委公共信用信息中心也提供了全国工商企业的黑白名单、行政处罚等信息。全国法律文书网提供了全国企业和个人的法律诉讼文书查询服务,这些数据源也是金融机构开展信用评价非常重要的补充数据。

三、信用评分模型的类别

(一)申请评分卡模型

申请评分卡模型用于借款人在申请信贷业务时对其当前时点的信用状态进行评估,是风险管理最重要的组成部分,属于贷前风控管理。也称为A卡(Application Scorecard)。

(二)行为评分卡模型

行为评分卡主要用于借款人在借款持续期间其信用行为及违约风险变化过程的监控及评估,并测算借款人未来的还款能力和意愿,属于贷后风控管理。也称为B卡(Behavior Scorecard)。

(三)催收评分卡模型

在借款人当前还款状态为逾期的情况下,预测未来该笔贷款变为坏账的概率。也称为C卡(Collection Scorecard)。

(四)三种评分卡的差异

从使用的时间角度看,申请评分卡主要侧重于贷前、行为评分卡侧重于贷中、催收评分卡侧重于贷后。从使用数据看,申请评分卡一般做1年左右的贷款信用分析,而行为评分卡需要2-3年的数据,催收评分卡对数据的要求更多,需要加入其他的数据维度,互联网大数据时代有很多外部数据可以作为信用评分的重要组成部分[4]。从使用变量看,申请评分卡主要用的是申请者的背景资料,如基本信息,以及人行二信信息、第三方外部数据源等。行为评分卡因为有了用户的信贷记录可以多增加行内行为数据。从使用模型看看申请评分卡主要使用logistic回归以及AHP等模型,而在行为评分和催收评分则可以采用更多的分析模型,比如生存分析、随机森林、人工智能等模型,这些模型在预测精度方面都会比logistics传统的线性模型来的高一些,但是解释性会差一些。金融机构可以根据申请评分卡的评分来决定该客户是否可以享受纯信用贷款,还是必须增加一部分抵押物,或者是拒绝申请。同时,也根据其他的信用评分来决定其贷款额度以及贷款利率。金融机构可以通过行为评分卡来判断客户信用额度是否需要调整、根据违约或者逾期情况制定清收策略等。

四、信用评分模型构建流程

(一)数据准备

信用评分模型的数据准备是一个非常重要,但常常长期被忽视的问题,有句谚语叫“垃圾进,垃圾出”,如果数据有质量问题,不具备代表性,那么产生的结果也不具备参考意义。用历史数据进行建模,然后对未知样本进行预测有个默认前提假设,即历史数据与未知样本处于相同的分布。然而,作为一家金融机构本身是很难获得足够多的违约样本作为“病人”纳入模型训练,另外,不同金融产品产生的违约客户样本也不适合放到一个模型进行训练,因此,违约样本的不足是银行信用评分模型的一个说不出的痛,更不要要求违约样本需要在不同自变量分箱中保持合理的分布了[5]。另外,信用白户也是数据准备阶段会遇到的一个难题,信用白户指没有任何贷款记录的贷款申请用户,这些用户在关键指标上面基本没有任何可以用于建模的有效信息。因此,在数据准备阶段建议区域性的商业银行,应该通过当地人行共享违约客户的数据,从而增大违约客户样本量及覆盖面[6-7]。否则通过单个商业银行来积累违约样本,效率太低,成本太高。每个违约样本都是一笔不良。在数据准备阶段也要对客户的多头借贷、黑名单等外部数据进行多方校验,以免陷入诈骗团伙的圈套。

(二)数据预处理

数据预处理阶段的工作主要包括数据清洗、缺失数据处理、异常值处理等。这个过程中会遇到很多变量缺失比例较高的问题,和传统的线性回归分析不一样,线性回归对缺失值问题要求比较高,而信用评分主要采用Logistic回归方法,而且所有连续变量都进行了分箱处理,所以,如果变量缺失,可以将其单独做入一个分箱[8]。在做信用评分数据预处理过程中还有一个显著的问题就是样本不平衡问题,常常违约样本占总样本的比例甚至都小于1%,因此要采用重抽样的方法来增大违约样本的比例,使得违约样本与非违约样本的比例保持在1:1或者1:3这样的范围。另外,还要对违约样本相对自变量的分布进行检查,如果分布太偏对预测效果的影响也比较大。

(三)探索性分析

数据预处理完,就要进行探索分析,探索分析主要看各个自变量的分布情况,与因变量的相关情况,以及各个自变量之间的相关系数矩阵。在这个过程中,已经可以初步判断哪些自变量与因变量成强相关关系。在变量探索阶段需要将每个自变量与因变量进行散点分析以判断自变量与因变量之间的相关程度。除此以外,可以做自变量相对因变量的盒型图比较,从而判断每个自变量对因变量的影响程度以及异常值的过滤[9-10]。

(四)变量选择(WOE)分析

WOE(Weight of Evidence)编码是信用评分过程中最重要的一个环节,通过这个环节才能通过计算不同变量的不同分箱对因变量的IV(Information Value)从而计算变量的重要性,也为后期计算信用评分卡提供基础信息。通过每个变量的IV信息,可以判断自变量的重要程度排序,从而剔除一些影响较弱的自变量[11]。

(五)模型分析

将WOE转换完的变量进行Logistic回归,对回归结果进行检验。

(六)信用评分转化

根据Logistic回归结果进行评分转换,转换成评分卡里每个变量每个分箱所对应的加减分。在该环节需要设定基础分值,以及PDO(Points to Double the Odds)。假设 Odds=50:1时评分=600,如果PDO=50,意味着如果分数增加或者降低50分,则Odds减少或者增加一倍。

(七)模型部署

模型训练完,需要进行验证,主要分析KS指标和PSI指标。KS用于模型风险区分能力评估,KS指标衡量的是好坏样本累计分布之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS值在0-1之间,大于0.5,模型的效果就很好了[12-13]。PSI指标反映了验证样本在各分数段的分布与建模样本分布的稳定性。PSI越小越好,一般在0-0.1以内,模型稳定性比较好。模型验证通过后,一般需要部署在生产环境,有新贷款申请客户的数据作为输入参数,经过模型运算后得出该用户的信用评分。

五、信用评分的未来发展方向

信用评分是金融机构进行精细化管理的重要工具,随着金融机构对企业画像数据维度的扩充以及人工智能算法的创新,金融机构将能够更加精准和及时的对企业以及企业主的风险进行画像,除了企业及企业主本身,金融机构也具备对其关联机构或利益相关人的风险进行评估及追踪,从而构成全维度的风险评估及预警体系。为金融机构的风险管理提供有效保障[14]。随着人工智能算法的普及以及更多的数据维度的加入,信用评分的精度将得到显著提升,信用评分在金融机构内部的使用范围也将越来越广,信用评分对企业和个人的影响越来越大,必将导致每个企业和个人都将更加珍惜其信用,从而让有信用的企业和个人做生意不困难。

作者:林炜 单位:光大银行上海分行