大企业研究所
第二期:机器学习在确定纳税人税收风险等级中的应用
文章来源: 作者: 发布时间:2016-11-18 14:50:00 点击数:

关键词:机器向量机 机器学习 税收风险管理

一、绪 论

20163月,谷歌人工智能机器AlphaGO和韩国专业棋手的人机大战吸引了无数人的目光,AlphaGO判断之准确、心思之缜密让很多人认识了机器学习。简单而言,机器学习的目标是赋予计算机自己学习的能力,为计算机设计具有“学习”能力的算法,通过发现经验数据中隐藏的模式,在面对一个新的样本时提供相应的判断。

很多人说,我们已进入了大数据时代。大数据时代是机器学习的时代,尤其对于税收风险管理而言。随着金税三期征管信息系统的全面上线,税务数据全国集中的目标已经初步达成。国务院《促进大数据发展行动纲要》又将为第三方数据的归集提供了多种渠道,因此未来税务机关将掌握多个维度的大企业涉税数据。如何更好的利用这些数据进行大企业风险管理是值得认真思考的课题。

20151224,《深化国税、地税征管体制改革方案》正式发布,税收征管体制改革的帷幕正式拉开。方案中明确要求对纳税人进行分类分级管理,区分不同风险等级分别采取风险提示、约谈评估、税务稽查等方式进行差别化应对。实现上述目标,必须要建立一套科学有效的税收风险评价机制,对纳税人实施风险识别,划定企业风险等级,优化税收征管资源配置。

为确定划分纳税人税收风险等级,需要考虑影响或决定税收风险等级的核心要素。对税务机关而言,从税收风险的狭义定义来看,是指纳税人违反税收法律法规或过度采用风险规避措施等使税收遭受损失的可能性。无论从理论研究还是工作实践看,一个纳税人的税收流失量能够作为划定纳税人风险等级的依据核心要素,它反映了国家对所有经济活动所产生的应征收而未征收到的税款,即从纳税人存在逃避税的角度确定其风险等级,这应该是一个客观而公正的衡量标准。准确地说,一个企业税收流失应该大于或等于进行税收风险管理后的查补税额,因为对所有经营活动所产生的税收百分之百地进行税款征收事实上是不可能的,而且从效率上也可能是不经济的。由此,我们近似地认为查补税款等于税收流失,从而确定了衡量纳税人风险等级的可行的核心要素。

二、基于机器学习的风险识别模型

(一)机器学习简介

机器学习是统计学与计算机的结合,一般而言,机器学习的任务包括预测分析、关联分析、聚类分析等。预测分析分为两种:分类和回归,分类用于预测离散的目标变量,回归用于预测连续的目标变量。机器学习的核心就是在大量的案例中提炼知识,总结经验。就税收风险管理而言,就是让计算机学习之前已经进行风险管理的企业相关指标和数据,根据企业查补税款额科学划定企业税收风险等级,从而对尚未进行风险管理的企业税收流失量有一个包含概率的具体估计。相对于现在税务部门正在使用的综合评价模型,机器学习有明显的进步:第一,机器学习是对之前案件的总结提炼,整个运算过程中参数确定不需要人工参与,而综合评价方法只是模糊的对税收风险有一个评价,没有明确的评价标准;第二,综合评价方法无论是模糊评价还是层次分析法等,需要很多的人工参与,而机器学习更为客观。

(二)具体步骤

为了更为细致地解释机器学习在税收风险等级中的应用,在此以支持向量机(SupportVector Machine)为例进行说明。支持向量机是机器学习的一种算法,可以用来进行分类或回归,从而对税收流失量或税收风险等级进行估计。20世纪70年代Vapnik根据统计学习理论中的结构风险最小化原则提出了支持向量机(SVM)模型。支持向量机的原理是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。该方法将非线性变换转换到高维的特征空间。为实现原空间中的非线性判别,算法在高维空间中构造线性判别函数,这种特殊的性能确保了模型的推广能力更佳。

SVM基于最优分类超平面的理论,如图所示的二维分类情况可用来说明其基本思想。图中的黑白圆圈分别表示两类训练样本集;为分类线,将两类样本准确无误分开;分别为通过两类样本中离分类线H最近的样本点,其特点是为直线且平行于分类线,它们的间隔称为分类间隔,位于上面的所有样本点就是支持向量。最优分类线是指不仅完全准确无误地分开两类样本,而且能确保最大分类间隔的分类线。如果从高维空间看,那么最优分类线将变成最优分类面。

图一 支持向量机示例图

在税收风险管理中,支持向量机的应用步骤主要如下:

1)确定分析指标。结合企业常见的税收风险,确定企业税收风险的具体因素,并根据因素之间的逻辑关系设计衡量企业税收风险的指标,同时将企业所处行业、区位等定性变量作为虚拟变量引入计算。

2)选择样本。选择已经进行过风险管理的企业按照上述指标进行数据整理,同时查看这些企业查补税数据的分布情况,从而确定企业税收风险等级。

3)将样本分为训练集和测试集。训练集是包含企业查补税款(风险等级)因变量的,测试集在计算时隐藏此因变量,得出估计结果后与真实结果相对照,以测试该模型的有效性。

对应用支持向量机模型的结果有以下几点考虑:

如果试验的结果能与实际情况的吻合率能够达到33%以上,则说明SVM模型可以运用于企业税收风险分析的研究领域,并且说明本文设计企业税收风险相关指标可以基本反映企业税收风险。一般的情况下,SVM 模型得出的结果理想的可以达到50%以上,经过参数调整后有可能更高,所以作者认为,试验结果如果达不到 50%以上,原因有以下几个:模型的参数未达到最理想的状态,需要进行参数调整;其它原因可能是与实验数据、试验选取的指标等有关系。试验结果未达到50%,甚至小于33%,表明SVM模型不适用于企业税收风险分析的研究领域。

三、实证检验

为了进行税收风险识别,确定税收风险等级,我们选取了一系列指标,既包含反映企业财务风险的指标,也有企业纳税能力测算的指标,以及财务税务相结合的指标(限于工作关系恕不能进行详细说明),同时考虑企业行业和区位等虚拟变量。

根据获取的数据,对缺失部分和明显不合逻辑的数据进行了剔除或插补,在进行数据整理后,样本数量为564个。对所有指标的分布形态进行正态性检验,检验发现,绝大多数指标并不服从正态分布,有些指标偏度较大,说明简单进行均值±一定标准差进行指标异常判断可能有较大误差。同时由于机器学习算法并不像经典计量经济学中如回归分析等方法对数据分布形态作要求,也说明了该方法的适应性。

做完探索性数据分析之后,我们着重对样本中税收流失量的分布进行重点观测,为规避企业规模因素影响,将税收流失量转化为税收流失率(税收流失率=税收流失量/本年度企业应纳税额合计)。同时结合现有征管能力确定企业划分税收风险的税收流失率的各个区间,从而将企业税收流失率的大小转换为企业的税收风险等级。在此,我们将作为税收流失率的定量因变量转化为税收风险等级的定性因变量,之所以进行这个转换,是因为按照《深化国税、地税征管体制改革方案》的要求,对纳税人进行分类分级管理,区分不同风险等级分别采取风险提示、约谈评估、税务稽查等方式进行差别化应对。

选取样本总量的三分之二作为训练集,剩余的三分之一作为测试集,测试集中的企业税收风险等级是被隐藏的,目的与估计出的企业税收风险等级大小进行对照,从而完成了建立支持向量机模型的全部准备工作。

将所有数据代入相应算法后,得出混淆矩阵,混淆矩阵是评估分类器可信度的一个基本工具。以一个二分类(即因变量是只有两种取值的定性变量)问题为例,混淆矩阵显示了一个分类器可能会遭遇的所有情况,其中列(positive/negative)对应于实例实际所属的类别,行(true/false)表示分类的正确与否。

http://cos.name/wp-content/uploads/2011/09/confusion_matrix.png

图二 混淆矩阵示例图

具体来看,TP表示实际情况为A预测情况也为A的数量,TN表示实际情况为B预测情况为A的数量,FP表示实际情况为B预测情况为A的数量,FN表示实际情况为B预测情况也为B的数量。显然,在税收风险管理中,我们更关注的是TPFN的数量,表示我们划分企业税收风险等级准确率的大小。因此,我们将重点考虑(TP+FN/(TP+TN+FP+FN)的值。

模型的输出结果如下:

表一 训练集结果

实际预测

高风险

中风险

低风险

高风险

83

20

5

中风险

35

96

27

低风险

6

5

99

学院微信公众平台

地址:吉林省长春市净月大街3699号
吉林财经大学大企业研究所 版权所有 Copyright © 2018