1、机器学习及其在金融市场中的应用证券分析师:曹春晓 A02305160800022018.6.21主要主要内容内容1.机器学习已广泛应用于各个前沿领域2.机器学习在金融市场中的应用举例1.Lasso回归与商品期货价格预测2.使用决策树模型预测财务造假3.逻辑回归与债务违约预警4.集成学习在多因子选股中的应用3.机器学习应用于金融市场的局限31.1 1.1 机器学习是人工智能的核心机器学习是人工智能的核心 机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机模拟或实现人类的学习行为,以获取新的知识或技能
2、,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,其应用遍及人工智能的各个领域。2016年开始深度学习系统AlphaGo先后击败围棋世界冠军李世石和柯洁,使得人工智能与机器学习再次受到广泛的关注。资料来源:申万宏源研究整理,图片来源于网络机器学习是人工智能领域的核心41.2 1.2 机器学习发展简史机器学习发展简史 机器学习源自“人工智能”,1956年夏的达特茅斯会议标志着人工智能学科的诞生。1956年达特矛斯会议提出的断言之一是“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述,使得机器可以对其进行模拟。”这一事件被广泛承认为AI诞生的标志。机器学习发展途
3、经了三个大的时期:推理期(1956-1960s):自动定理证明系统(例如:西蒙与纽厄尔的“LogicTheorist”系统);知识期(1970s-1980s):专家系统(例如:费根鲍姆等人提出的“DENDRAL”系统);学习期(1990s-至今):互联网、高性能计算机高速发展,同时人们对海量数据挖掘的需求日益迫切,深度学习兴起。51.3 1.3 机器学习算法已应用于各个前沿领域机器学习算法已应用于各个前沿领域资料来源:申万宏源研究整理,图片来源于网络AlphaGo生物特征识别军事决策助手外太空探索汽车自动驾驶61.4 1.4 机器学习方式分类机器学习方式分类 根据学习方式的不同,机器学习可分为
4、监督学习、无监督学习、半监督学习以及强化学习四大类型。资料来源:申万宏源研究整理,图片来源于网络71.5 1.5 机器学习算法库丰富且各有优势机器学习算法库丰富且各有优势 机器学习算法非常多,而且没有一种算法绝对的比其他算法都好,在不同学习任务下使用不同学习算法。线性回归(linear regression)逻辑回归(Logistic Regression)决策树(Decision Trees)朴素贝叶斯分类(Naive Bayesianclassification)支持向量机(SVM)聚类算法(Clustering Algorithms)降 维 分 析(Dimensionalityreduc
5、tion analysis)神经网络(NN)集成学习(Ensemble learning)机器学习算法非常多且各有优势资料来源:申万宏源研究主要主要内容内容1.机器学习已广泛应用于各个前沿领域2.机器学习在金融市场中的应用举例1.Lasso回归与商品期货价格预测2.使用决策树模型预测财务造假3.逻辑回归与债务违约预警4.集成学习在多因子选股中的应用3.机器学习应用于金融市场的局限92.1.1 2.1.1 线性回归及其正则化线性回归及其正则化 监督学习算法中,最简单最常用的算法是线性回归对于普通的线性回归模型,我们通过一系列自变量x的值来预测y的取值参数可通过普通最小二乘(OLS)估计得到。最小
6、二乘估计虽然有不错的解析性,但是其在大多数情况下的数据分析能力是不够的,特别是当输入变量具有高相关性时。岭回归(ridge)和Lasso回归岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过加上一个惩罚项,放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。Lasso回归是通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。=0+=1+102.1.2 2.1.2 基于基于L Las
7、soasso回归的回归的LMELME铜期货价格预测铜期货价格预测 大宗商品价格的变动对于金融市场的影响深远,预测大宗商品的价格变动方向及幅度,也是金融市场研究的重要议题之一。我们以LME铜期货价格为例,从宏观基本面角度筛选了部分可能对LME铜期货价格产生影响的因素,首先通过相关性分析找到各解释变量最佳滞后窗口,再对LME3月期货价格以及变量指标进行模型训练和预测。资料来源:申万宏源研究机器学习基本框架资料来源:申万宏源研究基于Lasso回归算法预测LME期货价格主要主要内容内容1.机器学习已广泛应用于各个前沿领域2.机器学习在金融市场中的应用举例1.Lasso回归与商品期货价格预测2.使用决策
8、树模型预测财务造假3.逻辑回归与债务违约预警4.集成学习在多因子选股中的应用3.机器学习应用于金融市场的局限122.2.1 2.2.1 决策树是较早应用于金融市场的机器学习方法之决策树是较早应用于金融市场的机器学习方法之一一 决策树是一种非参数的监督学习方法,它主要用于分类和回归。该方法的基本原理为:通过算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照算法规则分类,直到数据无法再分类为止。目前已有很多不同的决策树算法及其改进:ID3、CHAID、C4.5、C5.0、CART、SLIQ、SPRINT等。决策树在金融领域应用较早,例如银行信贷分析中会根据客户特征判定其违约概
9、率等等。简单的信贷分析决策树模型资料来源:申万宏源研究132.2.2 2.2.2 近年来上市公司财务造假不断挑战金融市场近年来上市公司财务造假不断挑战金融市场 近年来国内外市场频繁爆发财务造假案例,层出不穷的上市公司造假案件给投资者带来了巨大损失,也给资本市场的健康发展带来负面影响。从A股历史上市公司造假的原因与动机来看,大多是为了获取上市、配股、增股的资格,或是为了保壳、避免退市或者ST,或是为了获取银行和商业信用,以及相关利益主体的业绩考核等。从财务造假手段来看,多以虚增交易、虚增资产、虚增收入、少记成本和费用、调节利润以及隐瞒重大事项等。多年来,证监会和两市交易所不断加强上市公司监管,对
10、财务欺诈、虚假陈述等违法行为始终保持高压态势,坚决从严执法,治理市场乱象。142.2.3 20112.2.3 2011年之后年之后A A股市场财务舞弊案件频发股市场财务舞弊案件频发 我们筛选了2000年之后,A股市场被中国证监会、沪深两市交易所公开确定为财务造假的上市公司作为初始样本。为研究其持股特征,我们剔除了IPO之前以及新股上市当年的造假样本,部分公司存在连续多年舞弊现象,我们以首次造假年份的数据作为研究对象,总量依然有接近200个样本。2011年以来,财务舞弊案件呈现高发态势。2011年后造假样本明显增多资料来源:申万宏源研究152.2.4 2.2.4 特征提取与数据预处理特征提取与数
11、据预处理 结合财务造假常见动机、手段、以及国内外学者的研究,我们筛选了部分财务指标以及非财务指标来构建特征指标。部分特征指标间具有较强的相关性,我们根据相关性大小做了初步的筛选和剔除。名称代号名称代号资产负债率Asset_lia_ratio净利润同比增长率Npro_gro_rate流动比率Curr_ratio主营业务收入同比增长率Rev_gro_rate速动比率Quick_ratio营业利润同比增长率Opro_gro_rate主营业务毛利率Mainb_grop_rate经营活动产生的净流量增长率Ntra_gro_rate营业收入净利润率Rev_netp_rate应收账款占流动资产比例Rec_t
12、o_Cur主营业务利润占比Mainb_pro_ratio预付款项占流动资产比例Pre_to_Cur销售净利率Sale_pro_ratio其他应收款占流动资产比例OtherRec_to_Cur销售毛利率Sale_grop_ratio净资产收益率ROE货币资金占流动资产的比率Monetary_cur_ratio总资产报酬率ROA存货占流动资产的比率Stock_cur_ratio应收账款周转率Rec_tur_rate流动资产比率Curr_ass_ratio存货周转率Sto_tur_rate无形资产比率Invisible_ass_ratio总资产周转率Tola_tur_rate营业总收入/净利润Rev
13、_to_Npro造假前1年是否亏损Pre_np营业外收入/净利润Nonb_to_Npro前五大股东股权集中度Hold_pct应收账款/营业收入Rec_to_Rev审计信息Opinion营业收入现金净含量Cash_to_Rev应计项TATA营业利润现金净含量Cash_to_Pro待选特征指标列表经相关性分析剔除部分高相关指标资料来源:申万宏源研究资料来源:申万宏源研究162.2.5 2.2.5 基于决策树模型的预警模型效果相对较好基于决策树模型的预警模型效果相对较好 我们按照7:3的比例将历史样本划分为训练样本和测试样本,并通过几种常见的决策树算法对样本数据进行学习。从模型准确度、精确度、召回率
14、、F值等角度来看,CHAID算法在几种算法中结果相对较为理想,精确度和召回率均较高,F值达到27.37%。从模型给出的特征指标重要性排序来看,其他应收款占流动资产比例、审计师是否发表了标准无保留意见以上的意见、前一个会计年度是否发生亏损、预付款项占流动资产比例、前五大股东股权集中度、主营业务毛利率等指标是关注财务安全时的重要考量指标。决策树算法准确率精确度召回率F值C5.074.27%7.07%89.41%13.10%CART94.39%10.06%20.00%13.39%QUEST90.11%7.33%30.59%11.83%CHAID93.16%17.78%59.41%27.37%CHAI
15、D算法在四个决策树模型中表现相对较好决策树模型中预测变量重要性资料来源:申万宏源研究资料来源:申万宏源研究主要主要内容内容1.机器学习已广泛应用于各个前沿领域2.机器学习在金融市场中的应用举例1.Lasso回归与商品期货价格预测2.使用决策树模型预测财务造假3.逻辑回归与债务违约预警4.集成学习在多因子选股中的应用3.机器学习应用于金融市场的局限182.3.1 2.3.1 债券违约事件频发,冲击金融市场安全债券违约事件频发,冲击金融市场安全 2018年以来,债券违约事件频发,信用风险再次引起了整个金融市场的关注。今年的违约主体较往年同期增加不少,违约债券的数量已达22只,涉及违约主体13家,债
16、券余额200亿。从发债主体企业类型来看,民营企业是重灾区,从行业分布上看,交运、综合、采掘、纺织服装、公用事业、国防军工、机械设备等行业违约主体数量较多。2018年以来债券违约主体以名企为主今年以来违约主体所在行业分布资料来源:申万宏源研究资料来源:申万宏源研究192.3.2 2.3.2 特征提取与数据处理特征提取与数据处理 分析历史违约案例,我们可以得到一些共性的特征。这些特征可能包括企业类型、经营情况、盈利能力、现金流状况、会计师变更情况、行业属性、地区属性等等。为了尽可能全面的分析可能影响债务违约的因素,我们还通过问卷形式向信用债投资者进行调研,筛选了大家普遍关注的影响因素,充实特征指标
17、库。同时我们注意到,尽管历史上违约案例较多,但涉及主体公司数量并不多,此外主体发生违约时多数已经被下调评级,很多已不在可投资级债券范围之内,因此我们后续研究中主要以评级A以上且被下调的样本作为研究对象,构建预警模型。指标名称指标变量指标名称指标变量指标名称指标变量资产负债率debt_ratio无形资产比率intangibleasset_ratio应收账款占流动资产比例acc_to_curasset流动比率flow_ratio营业总收入/净利润rev_to_pro预付账款占流动资产比例prepay_to_curasset速动比率speed_ratio 营业外收入/净利润outrev_to_pro
18、其他应收款占流动资产比例otherrev_to_curasset主营业务毛利率gross_ratio应收账款/营业收入acctrev_ratio净资产收益率ROE营业收入净利润率netprofit_margin 营业收入现金净含量money_to_rev总资产报酬率ROA主营业务利润占比profit_ratio营业利润现金净含量money_to_pro应收账款周转率acc_turnover销售净利率netsales_ratio净利润同比增长率profit_yoy存货周转率inventoryturnover销售毛利率grosssales_ratio主营业务收入同比增长率rev_yoy总资产周转率
19、totalassetturnover货币资金占流动资产的比率money_ratio营业利润同比增长率yyprofit_yoy前1年是否亏损preNI存货占流动资产的比率inventory_ratio经营活动产生的净流量增长率jyxlj_yoy是否为央企type流动资产比率curasset_ratio判别债券违约待选特征指标变量资料来源:申万宏源研究202.3.3 2.3.3 基于逻辑回归模型构建债券预警模型基于逻辑回归模型构建债券预警模型 同财务造假研究,我们对原始数据做预处理之后,使用逻辑回归模型构建债券违约预警模型。回归过程采用逐步回归法,我们选取在验证集上AUC指标最好的模型结果列示于下
20、表。指标名称含义系数p值Intercept截距项-3.8920 2e-16*type是否是央企-0.67170.0003*debt_ratio资产负债率1.58500.0022*flow_ratio流动比率-0.13070.0181*netsales_ratio销售净利率-0.44570.0016*acc_to_curasset应收账款占流动资产比例2.72300.0000*prepay_to_curasset预付款项占流动资产的比例2.69500.0002*ROA总资产报酬率-21.9800 2e-16*acc_turnover应收账款周转率0.00000.0338*rev_yoy主营业务收
21、入同比增长率-0.90670.0001*yyprofit_yoy营业利润同比增长率-0.00270.0557.preNI前一年是否亏损0.83840.0000*债务预警模型特征指标及其显著性资料来源:申万宏源研究主要主要内容内容1.机器学习已广泛应用于各个前沿领域2.机器学习在金融市场中的应用举例1.Lasso回归与商品期货价格预测2.使用决策树模型预测财务造假3.逻辑回归与债务违约预警4.集成学习在多因子选股中的应用3.机器学习应用于金融市场的局限222.4.1 2.4.1 集成学习集成学习“三个臭皮匠,顶个诸葛亮”“三个臭皮匠,顶个诸葛亮”单个学习器的预测能力是有限的,集成学习(ensem
22、ble learning)可通过构建并结合多个学习器来完成学习任务。下图所示可以对集成学习的思想做一个概括。对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。集成学习可分为两个大类:Bagging和Boosting。Bagging的弱学习器之间没有依赖关系(即并行);而Boosting的个体学习器之间存在强依赖关系(串行)。资料来源:申万宏源研究Bagging算法原理示意图m个样本随机采样m个样本训练集1训练训练弱学习器1弱学习器2弱学习器T强学习器结合策略m个样本训练集2m个样本训练集Tm个样本训练集权重D(1)权重D(2)权
23、重D(T)带权重D(1)训练集带权重D(2)训练集带权重D(T)训练集弱学习器1基于学习误差率e1更新权重系数1弱学习器2基于学习误差率e2更新权重系数2弱学习器T基于学习误差率eT更新权重系数T强学习器训练训练训练根据1更新样本权重D(2)根据2更新样本权重D(3)结合策略Boosting算法原理示意图资料来源:申万宏源研究232.4.2 Boosting2.4.2 Boosting与与XgboostXgboost Gradient boosting(GB)机器学习中的学习算法的目标是为了优化或者说最小化loss Function,Gradientboosting的思想是迭代生多个(M个)弱
24、的模型,然后将每个弱模型的预测结果相加,后面的模型Fm+1(x)基于前面学习模型的Fm(x)的效果生成的。Gradient boosting Decision Tree(GBDT)GB算法中最典型的基学习器是决策树,尤其是CART,正如名字的含义,GBDT是GB和DT的结合。要注意的是这里的决策树是回归树。XgboostXgboost是GB算法的高效实现,xgboost中的基学习器除了可以是CART(gbtree)也可以是线性分类器(gblinear)。GBDT和xgboost在工业界使用非常频繁,能有效的应用到分类、回归、排序问题。GBDT是以决策树(CART)为基学习器,xgboost扩展
25、和改进了GDBT,xgboost算法更快,准确率也相对高一些。242.4.3 2.4.3 机器学习与多因子选股模型机器学习与多因子选股模型 数量化投资中,多因子选股是应用最为广泛的模型之一。传统线性多因子选股模型可用如下公式表示:线性多因子模型本质上也是机器学习算法(线性回归算法)在金融领域中的应用。近期随着机器学习算法的普及,使用非线性模型进行多因子选股的研究逐渐盛行起来。+1=+252.4.4 2.4.4 基于基于XgboostXgboost算法的多因子选股模型实证算法的多因子选股模型实证 我们以集成学习为例,构建一个简单的基于Xgboost算法的多因子选股模型。首先构建因子库,我们利用常
26、见的因子数据进行机器学习选股研究,本案例中包含市值、估值、盈利、成长、质量、反转、流动性、波动性、Beta等9大类43个具体的因子。数据预处理:所有因子数据在训练前均进行去极值、标准化、中性化等处理。数据标签化:在每个月末截面期,我们选取所有股票下个月相对于市场的超额收益率,并选取超额收益排名前30%的股票作为正例(=1),后30%的股票作为负例(=1),其余的股票标签设为0。为了利用到最新的市场数据,我们按照滚动回归的方法进行训练。历史样本数据按照9:1的比例拆分成训练集和验证集,并将验证集上效果最理想的模型保存,用作后续样本外预测模型。262.4.5 2.4.5 选股模型预测效果显著选股模
27、型预测效果显著 应用Xgboost模型对样本外个股未来一个月收益率进行预测,我们按照预测结果将股票分组进行验证,可以看到预测效果非常明显,各组别具有理想的单调性。资料来源:申万宏源研究Xgboost模型合成因子分组表现出色各分组单调性理想资料来源:申万宏源研究主要主要内容内容1.机器学习已广泛应用于各个前沿领域2.机器学习在金融市场中的应用举例1.Lasso回归与商品期货价格预测2.使用决策树模型预测财务造假3.逻辑回归与债务违约预警4.集成学习在多因子选股中的应用3.机器学习应用于金融市场的局限283.1 3.1 首只人工智能选股基金首只人工智能选股基金AIEQAIEQ运行已满运行已满8 8
28、个月个月 2017年10月18日,EquBot LLC、ETF Managers Groupl合作推出全球首只应用人工智能、机器学习进行投资的ETFAI Powered Equity ETF,将人工智能投资推向舆论高潮。AI Powered Equity ETF 与标普500指数表现资料来源:wind,申万宏源研究293.2 3.2 机器学习算法在金融市场中依然具有较大局限机器学习算法在金融市场中依然具有较大局限 尽管机器学习算法被广泛地应用于各领域,但在金融市场中,确实还存在诸多局限和争议。首先,金融数据是非实验、不可重复数据,即使能够找到相似的宏观环境、市场环境,但始终无法复制历史。其次,
29、尽管已进入大数据时代,但海量市场数据中可供利用的有标记数据样本较少,机器学习算法处理大数据的优势并没有得以充分体现。此外,金融市场中经常遇到数据分类不平衡问题,比如债务违约、财务造假,这些异常样本相对于总体数量占比过小,虽然我们可以经过数据采样方式处理分类不平衡问题,但已造成对原始数据的“污染”。机器学习很容易对数据过拟合,而过拟合对于实际投资带来的危害巨大。最后,机器学习算法相对而言较为复杂,对普通投资者相当于“黑箱”,尚难以理解和接受。信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信
30、息,独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准,取得证券投资咨询业务许可,资格证书编号为:ZX0065。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的,还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。法律声明本报告仅供上海申银万国证券研究所有限公司(以下简称“本
31、公司”)的客户使用。本公司不会因接收人收到本报告而视其为客户。客户应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司http:/网站刊载的完整报告为准,本公司并接受客户的后续问询。本报告首页列示的联系人,除非另有说明,仅作为本公司就本报告与客户的联络人,承担联络工作,不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或
32、投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,
33、以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险,投资需谨慎。若本报告的接收人非本公司的客户,应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有,属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。机构销售团队联系人华北机构部李丹010-华东机构部陈陶021-华南机构部胡洁云021-海外业务部胡馨文021-简单金融 成就梦想A Virtue of Simple Finance31上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司)曹春晓