基于logistic算法与随机森林的企业危机预警模型研究

2024-05-23

摘要:近年来,受国际和国内多种经济环境因素的影响,企业面临的风险随经济环境的变化日益增大,甚至可能导致经营失败。本文首先初步选取危机企业相关财务与非财务指标,并根据企业财务数据、所属行业、年龄结构及企业舆情评分等方面数据搭建指标体系,然后构建logistical regression模型及引入行业和舆情的随机森林分类模型,进而通过实证研究得出模型有效预警企业危机的结论。本文旨在为上市公司提供兼顾财务与非财务因素的企业智能危机预警系统,具有理论与实际应用的创新价值。


关键词:预警模型;企业危机;logistical regression模型;随机森林;指标



刘思乐1 王亦博2 李好3

(南京审计大学 江苏 南京 211815)


关注企业的可持续发展是关乎国计民生的必然课题。传统的危机预警模型更多地关注财务危机,忽略非财务因素,现有的危机预警方法不能满足企业的需求,因此,企业智能预警系统有助于企业实现高质量、可持续发展。


1 指标体系设计


1.1财务指标体系

财务预警指标是危机预警机制的基础,是预警模型建立和预警信息系统开发的依据,在构建企业智能危机预警系统中具有十分重要的意义。指标选择应遵循的原则包括:系统性、准确性、时效性、易取性和可比性。这些原则共同确保指标的有效性和可靠性。[1]


1.2财务危机预警指标

本文结合文献综述与实际情况,分析偿债能力、营运能力、盈利能力三大财务能力指标,初步确定15个财务指标,并建立相关的指标体系。


1.3偿债能力

根据偿债期限的不同,偿债能力分为短期债务与长期债务两种。短期偿债能力与偿付短期债务有关系。在指标体系中,主要使用流动比率、现金比率与现金流量比率、速动比率。长期偿债能力主要包括资产负债率、利息保障倍数与现金流利息保障倍数、权益系数。


1.4盈利能力

企业初期需要投入资金,盈利能力用来衡量这些投入的资金能否产生足够的利润。本文选取以下指标衡量企业的盈利能力:股东权益收益率、资产净利率与营业净利率,见表1。[2]


02.jpg


1.5营运能力

评价营运能力能够反映企业对这项资产的使用效率及资产对利润的贡献程度。本文选取以下指标衡量企业的营运能力:应收账款周转率、流动资产周转率、非流动资产周转率与总资产周转率。


2 非财务指标


2.1战略目标

企业的战略目标的确定是依据现有的发展目标,并且明显地呈现出时间性和主观性特性。


2.2产品品质等级

顾客满意度衡量标准包含消费者对所购买的商品或服务的性能评价,基于此,企业能够得出消费者的满意水平。产品在实际生产中,是否达到一系列标准;产品在实际使用过程中,是否能满足顾客的实际需求。废品率指标主要用来判断前者。对于后者的评估,主要应用退货率指标。


2.3创新能力

创新能力的评估通常从两方面开展:企业是否有能力研发出能满足市场需求、扩大盈利范围的创新产品;企业是否能建立并有效执行各种管理的新框架、新技能与新策略。根据以上非财务指标的具体内容分析,本文经过商讨选取了餐饮业、道路运输业、电气机械及器材制造业、房地产业、纺织业、互联网相关行业及农业七个行业,运用大数据挖掘技术在相关网站上进行数据“爬虫”,获得了大量的非财务信息。编写相关代码从海量数据中提取有效的非财务数据,根据词频筛选生成以下行业关键词。


餐饮业:同庆、旅游、凯撒、全聚德、旅游、西安、中科等;

道路运输业:盐田港、东莞、公路、垃圾、资讯、长江、路桥等;

电气机械及器材制造业:垃圾、电池、电气、板块、储能、科技等;

房地产业:积余、招商、公告、华联、万科、深振业等;

纺织业:鲁泰、股价、环境、垃圾、常山、纺织、生物等;

互联网和相关行业:国新、韭菜、资金、游戏、涨停板、数字、火箭、股民等;

农业:种业、生物、绿生、垃圾、神户、新农、粮食、行情等。


3 数据来源


本文以2013—2022年期间A股上市公司的年报数据作为研究样本,样本选取包含正常运行的企业与经历财务状况异常而被特殊处理(ST、ST*)的企业。主要财务数据、上市公司董监高年龄数据均来源于国泰安数据库,选取近十年的数据,避免由于期间太短引致的风险偶发性,又防止期间太长,董事会、监事会、高层管理人员逐渐变更,影响其风险偏好的度量。本文对初始数据做以下处理:去除金融、保险行业上市公司;填充财务数据中的缺失值;剔除数据异常值。本文获取了财经类网络媒体对上市公司的舆情评论,文本数据来源于专业的互联网金融数据服务商——同花顺网络信息股份有限公司(简称:同花顺)。同时,根据《申银万国行业分类2021修订版》的分类标准提取企业所在行业归属,最终将样本整合为三大产业下属的七类行业。将上述数据筛选与匹配后,最终得到65个样本观测值,并对样本展开研究。[2]


4 模型建立


目前,智能财务危机预警模型主要包括:一是统计评价方法;二是回归模型分类方法;三是机器学习方法。根据以上内容,就所获取的数据,建立以下模型,通过企业财务数据、所属行业、年龄结构、企业舆情评分等方面的各项相关数据,本文构建分类指标集,利用随机森林模型与logistical regression模型将以上数据进行预测分类。[3]


4.1初始数据采集

选取部分经历财务状况异常而被特殊处理(ST)的企业和正常运行的企业,二者比例为1/6~1/4且样本总量不小于300家,通过访问上交所,深交所以及我国目前规模最大、信息最精准全面的经济金融研究型数据库——国泰安CSMAR数据库获取企业财务数据,提取企业所在行业归属;通过财经类网络媒体对企业网络舆情进行情感倾向分析等方法全面了解样本企业现状。


4.2企业舆情监测模型

网络信息的传播速度加快使得所获取的信息更加实时。这些特点弥补了传统财务预警指标在选择上的缺陷。因此,本文引入网络舆情指标进行财务预警。由于文本数据无法直接用于建模,在分类之前首先将文本转化为TF-IDF向量。

TF-IDF即表示词在文章中的重要性权重,其计算公式:


03.jpg

通过贝叶斯分类对评论进行情感倾向分类,该分类模型主要是基于评论文本的二分类模型,本文主要选取贝叶斯分类模型进行对文本的分类。贝叶斯分类的算法核心主要为以下条件概率公式:


032.jpg

公式(2)中B表示类别;A表示文本特征。

最后根据企业财经媒体好评占比,下面展示企业财经评论数量等指标利用critic评价法生成企业舆情评分,其中X代表各个样本的指标体系数据构成的矩阵。

033.jpg


冲突性Aj计算公式,其中rij代表指标i与指标j的相关系数:


034.jpg


信息量Cj的计算公式:


035.jpg


5.实证分析

5.1 logistical regression模型

由于数据的二分类特性,采用二分类的logistical regression模型进行分析。[4]因为大部分财务指标信息重合,所以将财务指标利用critic评价法进行财务评分,在logistic回归中将财务指标归纳为财务指标评分进行分析。设发生财务危机的概率为P,那么未发生的概率为(1-P),二元logistical regression模型:


037.jpg


式(1)中,y是因变量;P为原因概率;β0为常数项;β为回归系数;ε为随机扰动项。以P<0.05为差异有统计学意义。通过表2可以得知,各项因素均与是否经历财务危机有关(P<0.05),其中各项系数见表3。通过Hosmer 与 Lemeshow 的拟合优度检验,其显著性远大于0.05,认为拟合优度较好。


AAA.jpg


表三.jpg


表4.jpg


5.2随机森林分类模型

随机森林模型取30%的样本作为测试集,70%样本构成训练集,对所有个变量进行变量重要性排序。前五位分别是企业年限,息税折旧摊销前利润,现金流利息保障系数,现金流量净额/负债合计,现金比率。表4展示模型各项参数配置以及模型训练时长。通过混淆矩阵(表5)可以得出,犯第一类错误和第二类错误的概率较小,故模型拟合较好。通过混淆矩阵可以得出模型分类效果较好,其中预测值为1代表未发生财务危机;预测值为0代表发生财务危机,犯第一类错误和第二类错误均在可接受范围内,正确率大于0.95。


表五.jpg


结语

本文根据企业数据对未来一个月内的危机预警情况进行预测,通过企业年报等资料提取企业年限,提取企业所在行业归属,通过财经类网络媒体对企业网络舆情进行情感倾向分析等方法来全面了解样本企业现状。根据实证分析,logistic和随机森林的模型检验结果可以得出根据判断企业是否具有财务风险的预测结果的精确程度较高。


参考文献:

[1]周璐璐.基于主成分分析的制造业上市公司财务预警[J].经济研究导刊,2022(26):99-101.

[2]闵剑,李佳颖.生命周期视角下中小企业财务风险评估研究——基于生存分析模型[J].财会通讯,2021(04):146-150.

[3]乔瑞玥.基于判别分析对医药类企业财务风险预警模型的建立[J].中国市场,2022(04):173-175.

[4]谭秋言.基于Borderline-SMOTE-SVM模型的高新技术企业财务危机预警研究[D].成都理工大学,2021(05):57.


审核:刘坤

责编:明贵栋

编辑:刘彬

分享