对汽车销售行业纳税人的各个属性指标进行分析,总结衡量纳税人的经营特征,建立偷漏税行为识别模型,识别偷漏税纳税人。
数据来源于网络,该数据集提供了汽车销售行业纳税人的各个属性与是否判断为偷漏税标识,该数据不存在缺失值。
原始数据的汽车销售平均毛利、维修毛利、企业维修收入占销售收入比重、增值税税负、存货周转率、成本费用利润率、整体理论税负、整体税负控制数、办牌率、单台办牌手续费收入、代办保险率、保费返还率均列为解释性变量。销售类型与销售模式对偷漏税行为不存在直接或间接的影响关系。故该两变量不列为解释性变量。
1、对于该数据指标的局限性以及实际中偷漏税行为及方式的多样性。可采用主成份分析法对解释性变量进行降维分析,检查是否适合因子分析法,看是否能分析出缩合指标。
4、采用神经网络进行学习分析,对于神经网络模型分为学习集与测试集,比例分配采用随机方式或训练集为30%,测试集为70%,具体数据在实际应用可以根据情况调整,本案例采用的是训练集为30%,测试集为70%方式。
在“描述”中选择“KMO和Bartlett的球形度检验”。“旋转”中的方法选择“最大方差法”。最后点击“确定”输出分析结果。
虽然在特征根大于1的前提下提取出了5个主成份。但是KMO指数只有0.5,说明该数据集“勉强适中主成份分析法”,再结合实际表格数据变量综合可能,主成份分析法不适用该案例。
在“回归”菜中单选择“二元logistic”,将“输出”放入因变量中,解释性变量放入“协变”,点击确定输出结果,从结果中可以看出模型分析预测结果比较理想,整体拟合为91.1%。
在“分类”菜单中选择“树”,将“输出”选入因变量,将解释性变量放入“自变量”中,点击确定,模型预测结果达87.9%,拟合效果也是非常理想的。通过后期的多次参数修正,预测效果会比二项logistic回归的效果更理想。
在“神经网络”菜单中选择“多层感知器”。设置好因变量与协变量,并将训练集与测试集分配为30%与70%,从输出结果可以看出。神经网络模型的分析效果远好于决策树及二项logistic回归分析,神经网络在后期的不断训练学习中,预测效果会更大幅度的可以得到提升。