基于LightGBM算法的上市公司财务造假识别研究

2024-06-14

摘要:随着机器算力、数据可得能力的提升,利用机器学习算法识别财务造假成为研究财务造假识别问题的新方向。在采用传统财务指标数据的基础上,引入高管动态、股权信息指标和财务报告审计意见,以2001—2020年上市公司的数据为样本利用采样算法降低样本数据不平衡性后,运用DecisionTree、SVM、RandForest和LightGBM算法构建模型对样本数据进行分类,并综合运用 Accuracy 、Precision、Recall和AUC确定模型识别效果。通过实验数据分析证明,基于LightGBM算法构建的财务造假识别模型在综合性能指标上效果最优。


关键词:上市公司;报表;财务造假


许金玲

(广东科学技术职业学院 广东 珠海 519000)


引言

党的二十大报告指出金融服务高质量发展任务艰巨,金融改革发展稳定面临新挑战,建设中国特色现代资本市场是当下重大时代课题之一。2020年10月,国务院发布了 《国务院关于进一步提高上市公司质量的意见》,指出虽然上市公司在经营和治理方面已越来越规范,但与建设现代化经济体系的目标还相差甚远,要实现推动经济高质量发展的目标,不但要完善违法违规行为认定规则,而且还需加重财务造假处罚力度;2021年7月,国务院发布了《关于依法从严打击证券违法活动的若干意见》、证券监督管理委员会发布第186号令 《证券期货违法行为行政处罚办法》,为进一步提升对违反证券期货法律法规进行行政处罚提供了有力的制度支撑。2021年3月,中注协召开“打击资本市场财务造假 提升审计质量”专题会议研究该问题。根据证监会通报,2020年证监稽查的典型违法案例中财务造假违法案例占据了30%,2021年证监会办理财务造假案例同比增长8%,2022年证监会办理财务造假案件同比增长15.6%。因此,研究如何识别和预测上市公司财务报表造假具有重要的现实意义。


1文献综述


建立高标准的资本市场是促进国民经济高质量发展、推进国家治理体系建设的坚实基础,因此识别财务造假始终得到各国政府高度重视。国内外对于财务造假的识别问题,主要集中在财务造假识别指标体系构建和财务造假数据识别方法两大问题上。主要研究成果如表1所示。


34.jpg


2基于LightGBM算法的上市公司财务报表造假识别模型


遵循“指标体系构建—模型构建—效果分析—模型优选”的研究思路,首先融合财务指标、非财务指标构建模型指标体系;然后采用 Kmeans-SMOTE过采样算法对样本数据进行非平衡处理,并利用多种机器学习算法构建财务造假识别模型。最后,通过 AUC、Recall 等指标对比确定最优算法模型。


2.1构建模型指标体系

在借鉴已有研究经验选择对财务造假识别有贡献的财务特征的基础上,依据造假行为可操作性及预测性原则,选取了国泰安数据库中财务指标、治理结构、股东和财务报告审计意见4个维度41个指标,构建了财务指标和非财务指标特征体系。具体指标如表 2 所示。


2.2模型数据采集

研究数据均取自于国泰安金融数据库,具体为在2001年至2020年期间因存在财务造假行为而受到中国证监会处罚的沪、深A股上市公司数据55016条。由于金融类公司的经营类型不同,其核算科目存在差异,故此排除了金融业公司10489条,确定研究样例数据为44527条。样本数据违规占比分析如图2所示:


图2 模型样本数据违规占比分析图

2.3模型设置

2.3.1确定模型算法

选择基本算法构建模型需要保证算法对分类数据识别的准确率,保证可以进行方便评估模型运行结果。LightGBM算法是XGBoost算法设置训练的目标函数为:


利用损失函数l(yi,yi)计算实际值与拟合值差值来衡量预测准确度,通过正则项函数Ω(fi)控制模型复杂度;该算法采用GOSS抽样方法,能够在样本数据数量和获取较高的模型训练准确性之间取得平衡,因而能较好地解决财务造假识别中样本数据量大、样本特征维度高的问题;此外,该算法既能实现将概率以因变量输出,也能获取AUC等指标,从而便于评估模型效果。


222.jpg


3333.jpg



2.3.2不平衡数据处理

财务造假样本占比仅为19.51%,数本样本不平衡水平高为4.13(非造假样本数/造假样本数),造假和非造假样本量相差悬殊,会直接导致高准确率、低召回率问题的产生,从而影响模型的实际应用性,因此需要对样本不平衡问题进行处理。 鉴于完整样本的充分利用,既能使模型符合资本市场的实际情况,减少由于人为判断剔除数据等产生的误差,又能增强特征指标对模型的影响,选用过采样Kmeans-SMOTE方法进行处理。

2.3.3模型参数调整

实验过程中采用网格搜索自动调参法GridSearch进行调参,经过多次调参效果对比分析,模型参数设置确定如模型参数设置表3所示。


2.4模型评价指标

二分类模型的常用评价指标有准确率( Accuracy) 、精确率( Precision) 、

召回率(Recall)、接收曲线(AUC)。对于财务造假识别问题,我们既期待获取较高的识别准确率,又期待能够发现所有的乃至潜在存在财务造假倾向的上市公司,因此我们既关注精确率,又关注能衡量实际造假样本被识别出来的比率指标召回率;此外,由于AUC指标可以很好地规避样本数据不平衡的问题,因此,AUC也是我们评价模型的一个重要指标。评价指标定义如下:

444444444.jpg



TP:财务造假样本被识别为财务造假;

FP:非财务造假样本被识别为财务造假;

FN:财务造假样本被识别为非财务造假;

TN:非财务造假样本被识别为非财务造假。

accuracy:识别正确的样本占识别总样本的比例,即(TP+TN)/(TP+FP+FN+TN)

precision:识别正确的财务造假样本占识别为财务造假样本的比例,即TP/(TP+FP)

Recall:识别正确的财务造假样本占实际为财务造假的样本的比例,即TP/(TP+FN)


2.5模型结果分析

(1)未进行平衡处理识别结果

5656.jpg

结语

本文采用新的机器学习算法LightGBM算法研究我国上市公司财务造假行为识别。首先,采用2001-2020 年我国上市公司违规数据形成财务造假样本,随机生成训练集和测试集。其次,采用过采样的算法进行数据处理以降低样本不平衡;然后运用决策树、支持向量机、随机森林和LightGBM算法构建模型,并综合运用召回率、精准率和AUC确定模型识别效果。通过实验数据分析表明,基于LightGBM算法构建的财务造假识别模型在综合性能指标上效果最优。本文进一步丰富了利用机器学习方法进行上市公司财务造假识别的研究,并且在数据不平衡性处理和新兴机器学习算法方面做出了新的探索。

基金项目:广东省哲学社会科学“十四五”规划2023年度学科共建项目—基于机器学习的上市公司财务造假识别与预测研究(GD23XGL053);广东省哲学社会科学规划项目“粤港澳大湾区高科技产业供应链风险识别与预测研究—基于PAJEK社会网络分析与改进BP神经网络算法”(GD24CGL58)。


参考文献:

[1]DechowP,GeW,LarsonCR,etal.PredictingMaterialAccountingMisstatements[J].ContemporaryAccountingResearch,2011,28(1):17-82.

[2]BaoYang,BinKe,BinLi,Yetal.DetectingAccountingFraudinPubliclyTradedU.SFirmsUsingaMachineLearningApproach[J].JournalofAccountingResearch,2020,(01).

[3]周卫华,翟晓风,谭皓威.基于XGBoost的上市公司财务舞弊预测模型研究[J].数量经济技术经济研究,2022(7):176-196.

[4]黄世忠,叶钦华,徐珊等.2010~2019年中国上市公司财务舞弊分析[J].财会月刊,2020(14):153-160.

[5]袁先智,周云鹏,严诚幸等.财务欺诈风险特征筛选框架的建立和应用[J].中国管理科学,2022(3):43-54.

[6]于李胜,郑天宇,滕传浩.基于机器学习方法的中国上市公司舞弊研究[J].厦门大学学报(哲学社会科学版),2023(2):44-55.

[7]王柳匀. 基于分类算法的财务报表舞弊识别研究[D].中国财政科学研究院,2021.



审核:刘坤

责编:明贵栋

编辑:刘彬


分享