1、理论Theory2023 年第 2 期总第 41 期107基于机器学习的财务危机预警模型研究 来自科创企业的实证分析詹辰(伦敦国王学院国际发展系,伦敦WC2 2LS)摘要:以科创型企业为切入点,通过研究分析企业财务危机的成因、指标选择和预警过程,并以此为基础选取财务指标与非财务指标结合构成科创型企业财务危机预警指标,筛选出 ST 与非 ST 科创型企业作为研究样本,选择 Logistic 模型、KNN 模型和决策树模型作为基础模型,分别对企业财务危机进行预测,得到财务危机预警模型。结果表明,对比 Logistic 模型和决策树模型,KNN 模型的预测性能更好。建模结果表明,科创型企业需要针对财
2、务指标进行有效的监测,针对财务危机采取预防措施,确保公司可以良好的运营,保证投资人的利益,这些措施具有重要的实践意义。关键词:科创企业;KNN;Logistic egression 模型;决策树;财务危机0引言迈入发展的新阶段,科技创新型企业在社会中的作用愈发凸显,国家对于科创型企业的扶持力度也在不断加大。国家有关部委在 2016 年修订完善了 高新技术企业认定管理办法,这标志着国家加大对科创型企业,尤其是中小科创型企业的扶持力度;2018 年 11月,国家正式宣布设立“科创板”,区别于主板、创业板,科创板的定位是新兴中小型科创企业。科创板上市财务条件也比较宽松,这标志着有关企业融资渠道得到拓
3、展,有助于更好更快发展;2022 年政府工作报告指出,将继续加大研发费用扣除力度,对投身于基础研究的企业实行税收优惠,要落实好各类创新激励政策,以促进企业加大研发投入,培育壮大社会发展新动能。虽然有诸多优惠扶持政策,但科创型企业仍然不可避免地会发生财务危机。科创型企业大多具有前期投入高、回报周期长、产品上市不确定性高等特点,如果经营不善,很有可能发生业绩“变脸”。例如,科创板上市公司“恒誉环保”,2021 年度预计实现归属母公司净利润 1 000 万元左右,较上一年度减少5 000多万元。因此,针对财务危机进行预测十分重要。与其他国家相比,我国有关企业财务危机预警的研究开展较晚。一方面是因为资
4、本市场发展较晚,迄今也不过 32 年;另一方面原因是人们对于财务危机带来的恶劣影响认识还不够充分,直到国内部分业绩良好的企业突然破产,2008 年国际金融危机爆发后,财务危机预测才受到重视。早期,人们还是使用统计方法构建预测模型,例如经典的 Z-score 模型。但随着机器学习的普及,尤其是在金融领域的应用得到拓展,人们逐渐使用机器学习的方法进行财务危机预测的研究。相较于传统方式,机器学习需要的假设更少,合理范围更大,预测的准确也更高,所以本文将使用机器学习算法预测企业未来是否会发生财务风险。1研究意义自 2019 年 7 月首批公司上市科创板以来,截至1082023 年第 2 期总第 41
5、期Theory理论2021 年 12 月 31 日,该板块已有 391 家企业。随着相关行业内竞争激烈程度的提高,产品和生产技术更新换代十分迅速,公司发生财务风险的可能性进一步提高,所以针对科创型企业财务危机预测十分重要。本文从企业的内部财务指标和外部审计意见出发,基于财务危机发生的原因,构建财务危机预警指标体系,选择 Logistic 模型、KNN 模型和决策树模型作为预警模型,根据这 3 个模型的预测效果,选择出最适合预测科创企业财务危机的模型。一方面,该研究可以为企业经营者提供意见,较早地防止财务危机的到来,促进企业健康的发展,为社会创造更大的价值;另一方面,也可以为资本市场的投资主体提
6、供参考信息,避免将资产投资于较差的标的,防止个人投资者蒙受亏损,机构投资者业绩受损,甚至避免因相关原因产生的“黑天鹅”事件发生。2文献综述文献综述部分将介绍企业财务危机成因、财务危机预警指标、财务危机预警模型 3 个方面内容。2.1财务危机成因目前大部分研究将公司财务危机的产生归于公司内部因素和公司外部因素。1976 年,Argenti1 研究发现,公司财务危机产生的主要原因之一是企业内部治理不善。Agrawal 和Chadha2 在 2005 年指出,无效的公司治理有更大的概率导致公司内部不当行为的产生,从而导致公司产生财务危机。Dyck 和 Zingales3 通过研究 19962004
7、年间美国所有发生财务危机的大型公司,结果发现,约有 30%的案例与公司内部治理因素有关。1996 年,Beasley4 通过研究发现,董事会成员的多样性、董事的独立性和专业性、举办股东大会的频次等也会对公司内部不当行为发生的频率和严重性产生影响。Uzun等5 指出审计委员会委员的组成和会议频率也与不当行为的概率有关。Gorshunov 等6 对 164 家财务腐败的公司和 164 家合规公司构成的样本进行分析,结果表明,审计委员会成员的独立性、董事任职经验和财务专业知识、股票所有权等因素使上市公司发生财务危机的可能性降低了 72%。2.2财务危机预警指标鉴于预测财务困境的重要性,自 20 世纪
8、 60 年代以来,它得到了研究人员的广泛关注。纵观现有研究,获得有效特征和建立高性能模型是两个重要的方向。20 世纪 30 年代初,一些学者率先尝试比较失败和成功公司的财务比率7。结果证明,财务指标与公司的财务业绩密切相关。此后,大多数研究都使用财务比率来预测财务困境。Kim 和 Upneja8 使用盈利能力、偿付能力、流动性、活动性和增长性等财务比率来区分有财务困难的餐厅和无财务困难的餐厅。但是,财务指标是在特定的财务监管框架下计算出来的,只能反映企业过去的经营和财务状况,而不能反映其他重要信息9。研究人员逐渐意识到财务指标的局限性,开始引入更多的信息维度10。Liang 等11 的研究表明
9、,大股东的持股比例是预测财务困境的一个重要特征。国内学者中最先进行财务预警指标研究的是周首华。1996,周首华等12 创造性地将现金流量因素加入传统 Z-score 模型,弥补了传统 Z-score 模型的不足,经过研究 33 家财务危机公司与 33 家正常公司组成的样本,建立了 F 分数模型并证明模型的有效性。2001 年,姜秀华和孙铮13 通过研究由 42 家 ST 企业和 42 家正常企业构成的样本,综合对比各项财务比率发现,“其他应收款”“短期借款/资产”“股权分散”等财务信息有较好的预测效果,并且能够较早地预测公司潜在的财务危机。2014 年,吕峻14 通过研究 20022011 年
10、沪深两市经营净现金流为负的公司和正常公司,发现财务危机公司往往具有毛利率低、流动资产占比高且固定资产占比低、“其他应收款/流动资产”和“短理论Theory2023 年第 2 期总第 41 期109期借款/流动负债”比率较高、资产负债率高等特征,因此上述财务指标也可以较好地预测公司是否会陷入财务危机。2.3财务危机预警模型随着机器学习的应用领域不断拓展,人工智能算法在金融领域受到广泛关注,并提供了许多富有成效的研究成果。与传统的统计技术相比,机器学习不提前设定数据分布,可以自动从训练样本中提取知识。最近的许多研究表明,基于集合学习技术获得了更高的准确性9。例如,Geng 等15 利用数据挖掘技术
11、和神经网络建立了一个基于 3 个不同时间窗口的金融危机预测模型。他们发现,该模型的判别性能比其他分类器的准确。2018 年,王玉冬等16 首次将 FOA-BP 神经网络应用于高新技术企业的财务风险预测,并将其与PSO-BP 神经网络模型进行对比,发现在识别 ST 企业时,FOA-BP 模型表现更好。Mai 等17 利用深度学习技术从文本数据中提取信息构建预测模型,结果表明深度学习在预测企业破产方面具有较高的判别性能。郑立18 针对制造业企业,将粗糙集理论和最小二乘支持向量机结合,构建财务危机预警模型,结果表明 S-LSSVM 模型可以满足制造业企业实际预警需求。2020年,黄虹等19 考虑到预
12、警样本“数量小、纬度高”的特点,创造性地将核主成分降维法与加权最小二乘支持向量机融合,构建财务危机预警模型,结果表明该模型准确率更高、更加稳定。赵雪锋等20 通过集成多棵特征因果关系 CAT 树得到 CFW-Boost 模型,使用3 639份数据实证后发现,模型不仅降低了数据的维度,还降低了特征冗杂的影响,因此在面对高维数据时表现更佳。任婷婷等21 基于不平衡样本,在改进AdaBoost 算法的基础之上,构建 ADA-CSSVM-TW 模型,结果表明该模型处理非平衡样本的性能出色,预测效果更佳。虽然有很多预测财务困境的方法,但由于数据的复杂性和实际应用的难度,单一的分类方法往往是无效的,尤其是
13、在加入许多类别和文本特征之后。因此,研究人员研究了多种分类方法的整合,即集合学习9。Carmona 等22 使用 XGBoost 算法预测银行倒闭,发现其在预测金融困境方面具有比其他方法更好的分辨性能。一些学者建立了基于 bagging 和 AdaBoost 的模型,并将其与单一的神经网络分类器进行比较。结果显示,集合算法可以显著提高预测性能23。Tsai 等24 证明,在财务困境预测的不平衡样本中,分类器集合有可能优于单一分类器。3相关理论介绍本文选择 Logistic 模型、KNN 模型和决策树模型作为预警模型的基础,本节主要对这 3 个模型做简单的介绍。3.1Logistic egres
14、sion 模型Logistic egression(L)是一种用于预测二分因变量的回归方法。在产生 L 方程时,最大似然比被用来确定变量的统计意义。在 L 模型中,因变量总是以分类的形式存在,而自变量可以是数字或分类形式。相较于多元线性模型,Logistic 函数是位于(0,1)内的平滑函数,随着自变量绝对值的增大而函数形式越趋近于直线。考虑到在 L 中是采用因变量取 0 或 1 的概率来实现对结果的预测,所以 L 模型应当最大化似然函数,为L(W)=log(Ni=1 YW(Xi)yi 1 YW(Xi)1yi)3.2KNN模型KNN 算法的核心思想是如果样本与距离其最近的k 个样本最相似,且这
15、 k 个样本中大多数属于某一类,那么就可以将样本点归为同一类。所以给定的样本点个数 k 和样本点间的距离是这个模型中最重要的数据。两样本点间距离最常见的表1102023 年第 2 期总第 41 期Theory理论达方式是使用欧几里得距离,具体为d(x,y)=Nk=1(xk yk)2KNN 算法步骤简要描述如下:(1)计算样本点距训练集中所有数据的欧式距离。(2)将计算得到的欧式距离升序排列。(3)给定合适的参数 k,选择样本点附近距离最小的 k 个点。(4)返回附近 k 个点中大多数所属的类别。3.3决策树模型决策树模型的结构是自上而下的树状结构,它将数据分割成叶子。其中每个内部节点表示对一个
16、属性的测试,每个分支代表测试的结果,叶子结点代表类或类的分布。根节点具有最高信息增益,位于树中最顶端。自根节点而下,剩下的具有最高信息增益的属性之一被选为下一个内部节点,用作属性测试。这个过程一直持续到所有的属性都被比较,或者没有剩余的属性可以进一步划分样本为止。这种信息理论的方法可以最大限度地最小化对物体进行分类所需的预期测试数量,并保证找到一棵简单的树。4实证研究本文从 iFinD 中选取了沪、深主板和创业板市场中科创企业 2021 年被判定为发生财务危机企业,并选择其对应的 2018 年财务数据采用机器学习进行科创企业财务危机预警研究。研究工具选择 Python 语言,详细阐述如下。4.1财务危机预警指标体系的建立4.1.1实证样本的确定原则因为本文实证对象为 A 股市场科创企业,因此如何界定十分重要。考虑到 2019 年科创板的设立,并且由于科创板上市条件中“三创四新”的原则,所以已在该板块上市的企业所属行业可以认定为科创企业。据此,本文统计了截至 2021 年 12 月 31 日科创板所有已上市企业的行业分布,行业统计基于申万行业分类标准,见图 1。选择其中个数最多的 6 个