1. 引言
随着经济全球化的不断发展,我国的市场竞争环境愈发激烈。企业的财务状况是影响其未来发展的重要因素之一 [1] ,财务危机的发生往往是一个从异常初现到问题逐渐恶化的过程,因此企业财务困境具有一定的可预测性。如何有效地进行企业财务困境预警从而提高企业经营质量是十分重要的,也是国内外学者广泛关注的研究方向。
目前,财务困境预警一般是通过建立财务指标体系来对企业的财务状况进行预测 [2] 。早期的预测方法技术主要为统计方法,例如altman (1968)采用线性判别法建立了z评分模型,通过z值大小来对企业是否陷入财务困境进行判定 [3] ,为了克服z评分模型只适合短期预测的缺点,改进的zeta模型被提出,预测的应用范围得到扩大 [4] 。martin (1977)提出了基于逻辑回归的银行财务困境预警模型,取得了较好的预测效果 [5] 。近年来,机器学习在财务困境预警方面的应用较为热门。机器学习模型在处理大量样本和高维变量方面有着巨大的优势,目前常用的机器学习模型有决策树、支持向量机、bp神经网络等。崔玉娟(2011)建立了基于决策树的财务预警模型 [6] 。张根明和向晓骥(2007)采用了适合小样本的支持向量机算法进行上市公司财务预警研究,实证结果表明支持向量机预测效果优于神经网络模型 [7] 。陈收等(2015)在支持向量机模型基础上引入了信息披露质量,模型在企业不同发展时期的财务困境预警准确率均得到提升 [8] 。李晓燕(2012)建立了基于bp神经网络的中国上市公司财务困境预警模型,并对神经网络的参数选取进行了研究 [9] 。王玉冬等(2018)将粒子群算法和果蝇优化算法与bp神经网络相结合,建立了pso-bp和foa-bp模型进行财务危机预警 [10] 。
在机器学习模型应用过程中,采用集成算法的模型的泛化效果往往优于单一模型,常见的集成算法有boosting,bagging,stacking等。目前,集成学习模型在企业财务困境预警方面的应用相对较少,因此本文采用了boosting算法的典型模型adaboost对上市企业进行财务困境预警研究。另外,为了能从多个方面反映企业的财务情况,财务困境预警模型中选取的指标一般较多,本文创新性地利用随机森林特征重要性剔除掉贡献度低的指标来进行降维,降低训练复杂度的同时直观反映了各财务指标在财务困境预警中的重要性,从而挖掘出需要企业经营者重点关注的财务指标。
2. 模型原理
adaboost是boosting算法的代表,其核心思想是通过迭代训练不同的弱分类器,构成一个强分类器。adaboost进行多轮分类训练,每轮训练会提高前一轮被弱分类器误分的样本的权重,降低那些被正确分类的样本的权重。对于不同的弱分类器,adaboost采取加权投票的方法,加大分类正确率高的弱分类器的权重,减小分类正确率低的弱分类器的权重,从而使得表现好的弱分类器在表决中起到较大作用,表现差的弱分类器在表决中起到较小作用。其主要步骤如下:
1) 设有m个样本,初始时赋予每个样本相等的权重
(1)
其中,
表示在第t次迭代中样本i的权重。
2) 使用具有以上权重分布的
进行训练,得到弱分类器
,其分类错误率
为
(2)
3) 根据上一轮迭代中各弱分类器的表现,计算
在强分类器中所占的比重
(3)
4) 更新权重分布
(4)
(5)
其中,
为归一化因子。
5) 重复步骤(2)到(4),直至计算出所有弱分类器的比重,并根据比重组合得到强分类器
[11]
(6)
3. 基于rf-adaboost的财务困境预警模型构建
3.1. 模型构建框架
本文建立的基于rf-adaboost的财务困境预警模型流程如图1所示。首先从营运能力、获利能力、现金流量、发展能力与偿债能力五个维度建立初始财务指标体系,其次对上市企业样本的财务指标数据进行归一化处理和随机森林特征降维得到最终财务指标体系,再利用adaboost模型对上市企业是否会陷入财务困境进行预测。
3.2. 财务指标选取
关于财务困境预警指标的选取,根据前人的研究成果发现非财务指标的选取较为主观,因此本文仍然选择建立财务指标体系来进行研究。杨钰晨等从现金流、偿债能力、盈利能力等方面选择多个财务指标建立了bp神经网络模型进行上市公司财务预警,取得了良好的预测效果 [12] 。本文借鉴其对财务指标选择的分析,从获利能力、现金流量、营运能力、发展能力、偿债能力这五个维度选取了13个初始财务指标,如表1所示。获利能力是指企业的资金增值能力,现金流量反映了企业获取现金的能力、财务弹性和收益质量。营运能力是指企业在受到外部市场环境约束的条件下,通过内部人力资源和生产资料的调控而对财务目标所产生作用的大小,可以衡量企业的资产管理效率。发展能力是指企业在维持生存的基础上,实现规模扩大的潜力。偿债能力是指企业到期偿还债务的能力。这五个维度可以较为全面地总结和评价企业的财务状况 [13] 。
. modeling process
图1. 建模流程
. initial financial indicators
表1. 初始财务指标
3.3. 样本选取
根据我国证监会规定,连续两年出现亏损的企业会被特殊处理,股票前将被加上“st”标记,若其连续三年出现亏损则面临退市风险,警告退市风险采用“*st”标记。因此,企业股票被标记为st或*st可以作为企业陷入财务困境的标志。本文选取了2019~2021年沪深两市和北交所共195家被标记为st或*st的企业作为陷入财务困境的企业样本,为了避免样本类别不均衡问题,本文按照1:1的比例选取了195家与陷入财务困境的企业的资产规模、所在行业相近的非st公司作为财务健康企业样本。
由于我国上市公司在t年是否会被特殊处理取决于其公布的t-1年的财务报告,使用t-1年的财务指标数据预测企业在t年是否会被特殊处理没有实际意义,因此本文采取上市公司在t-2年的财务指标数据构建模型来预测其在t年是否会被特殊处理 [14] 。
3.4. 样本数据预处理
3.4.1. 数据归一化
数据归一化是建模的一项基础又十分重要的工作,不同特征变量往往具有不同的量纲,这会影响数据分析的结果,为了消除量纲的影响,需要进行归一化处理,本文采取min-max标准化,将财务指标的值映射到
区间内,变换函数如下
(7)
其中,x为某一财务指标的取值,max为该财务指标的最大值,min为该财务指标的最小值。
3.4.2. 随机森林特征降维
本文采用随机森林(random forest,简称rf) oob误分率计算每个财务指标对企业是否会被特殊处理的分类结果的重要性。将390个样本用于随机森林模型训练,得到13个财务指标的特征重要性如图2所示。由图2得,贡献度排名前四的财务指标依次为:净利润增长率、净资产收益率、总资产报酬率、总资产周转率。因此企业在经营过程中应当重点关注这些财务指标的变化。另外,隶属于企业获利能力维度的2个指标总资产报酬率、净资产收益率,隶属于企业发展能力维度的3个指标总资产增长率、净利润增长率、
. importance of financial indicators
图2. 财务指标重要性
营业收入增长率的特征重要性都较高。连续2~3年出现亏损的企业将会面临被特殊处理的风险,企业能否获利直接反映了其是否有足够的资金维持自身发展。企业的发展能力可以反映其在未来的财务状况走势,发展能力强的企业即使暂时存在轻微财务困难,但其具有转亏为盈的潜力而免于陷入财务困境。所以,企业的获利能力和发展能力在判断企业是否会陷入财务困境中有较大的参考价值。
本文将重要性低于0.6的财务指标予以剔除,最终保留的6个财务指标为:总资产报酬率、净资产收益率、总资产周转率、总资产增长率、净利润增长率、营业收入增长率。
4. 模型实验结果分析
为了便于模型进行训练和预测,本文将未被特殊处理,即财务健康的企业归为类别0,将被特殊处理,即陷入财务困境的企业归为类别1。在衡量机器学习模型的性能时,应重点关注模型在测试集上的表现来对模型的泛化能力进行评估。
4.1. 模型评价指标
4.1.1. 分类正确率
模型的分类正确率是重要的衡量模型性能的指标,能够反映出模型对企业是否会陷入财务困境的判别能力。
(8)
accuracy为分类正确率,
为实际类别为i,预测类别为j (
)的样本个数,测试集分类正确率越高,表明模型的泛化能力越强。
4.1.2. 召回率
为了起到预警作用,将实际情况为陷入财务困境的企业正确预测显得尤为重要。如果预测错误,可能导致已经出现财务危机信号的企业对未来抱有错误预期,未能意识到问题的严重性,从而无法及时采取措施而陷入财务困境。因此除了分类正确率,本文引入召回率作为第二个模型评价指标。
(9)
recall为召回率,
为实际类别为i,预测类别为j (
)的样本个数。
4.2. 模型预测结果
本文按照训练集样本数:测试集样本数 = 7:3的比例,将273个样本作为训练集,将117个样本作为测试集,进行模型的训练和预测。adaboost的再代入误差(resubstitution error)是其在训练集上的分类错误率,随着子分类树的数目的增加,再代入误差数值不断减小,并趋于相对平稳的状态,如图3所示。本文选择800作为rf-adaboost模型的树的数目,其训练和预测结果如表2所示。rf-adaboost模型在训练集和测试集上的表现都较好,测试集的分类正确率达到84.62%,测试集召回率达到80.4%。这说明模型不仅对企业是否会陷入财务困境取得了理想的预测效果,还具有对实际情况为陷入财务困境的企业进行正确识别的能力,具有较好的预警作用。
4.3. 模型预测结果验证
4.3.1. rf-adaboost与adaboost模型对比
为了验证随机森林特征重要性进行特征降维是否有效,本文比较了直接使用初始13个财务指标的adaboost模型和使用特征降维的rf-adaboost模型的预测效果,如表3所示。由表3得,rf-adaboost在测试集上的分类正确率和召回率均高于adaboost模型,说明特征降维是有效的。
. change of resubstitution error
图3. 再代入误差变化
. results of rf-adaboost model
表2. rf-adaboost模型结果
. comparison of rf-adaboost and adaboost
表3. rf-adaboost与adaboost对比
4.3.2. 其他机器学习模型对比
为了进一步验证模型的有效性和优越性,本文在随机森林特征降维的基础上使用了多个其它机器学习模型进行预测效果对比。在企业财务困境预警领域,朴素贝叶斯和支持向量机是比较常见的机器学习模型。朴素贝叶斯方法中对变量的独立性和分布有较高的要求,因此本文采用基于核密度估计这一非参数概率估计方法的朴素贝叶斯模型进行训练和预测。核函数是支持向量机模型的最重要的参数之一,核函数的选择对模型的性能有很大影响,因此本文选择了rbf和linear两种核函数分别建立支持向量机模型进行训练和仿真。近年来,一些学者开始将深度神经网络用于财务困境预警,相对于传统神经网络,以rnn、lstm等为代表的深度神经网络可以更好地捕捉变量间的复杂非线性关系,lstm神经网络在rnn神经网络的基础上引入了输入门、遗忘门和输出门,通过门控状态来控制过往数据向未来的传输状态,实现重要信息的长期记忆和不重要数据的及时遗忘。因此,本文选择lstm深度神经网络进行训练与预测。各模型的测试集表现如表4所示。
由表4得出,rf-adaboost的测试集分类正确率和召回率均高于其他模型,其泛化能力最好,这说明了相较于单一模型,集成学习模型在分类效果上的优越性。
. comparison of different machine learning models
表4. 不同机器学习模型效果对比
5. 研究结论与展望
本文通过构建基于特征降维和集成学习理论的rf-adaboost模型,对我国上市企业进行了财务困境预警研究。本文创新性地根据随机森林特征重要性进行降维,直观反映了各财务指标在财务困境预警中的重要性,从而挖掘出需要企业经营者重点关注的财务指标。研究结果表明,净利润增长率、净资产收益率、总资产报酬率、总资产周转率这4个指标对企业是否会陷入财务困境具有较强的指向作用。同时,企业应当注重自身的获利能力和发展能力,不仅要立足当下,还要力争成为“潜力股”。
其次,为了验证rf-adaboost模型的效果,本文还使用了adaboost模型,lstm神经网络、rbf-svm、linear-svm、基于核密度估计的朴素贝叶斯模型进行了实验,研究结果表明rf-adaboost在所有模型中表现最好,测试集的分类正确率和召回率都达到80%以上,说明了特征降维的有效性和集成算法的优越性。
本文的研究成果为一般企业提供了可操作性强的财务困境预警方法,但在实际情况中,除了财务情况这一主要因素,导致企业陷入财务困境的因素还有很多。例如,企业的管理机制不当可能会导致企业经营不善,企业领导者在重大决策上的失误可能造成企业的巨大损失从而陷入困境等。不同企业的情况不同,要想精准地对企业的财务状况进行预测,还需有针对性地对企业进行全面的调查和分析,因此在实际应用中,如何制定个性化的企业财务困境预警方案是未来需要研究的问题。
notes
*通讯作者。