1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/2424 金融工程|专题报告 2018 年 12 月 2 日 证券研究报告 影响指数基金规模的因素分析影响指数基金规模的因素分析 基金产品专题研究系列之五基金产品专题研究系列之五 报告摘要报告摘要:影响指数产品规模的因子及分类影响指数产品规模的因子及分类 对指数产品规模可能产生影响的因子可分为三类:不变因子,长期因子,短期因子。不变因子代表基金产品的固有属性,不会随着时间推移而改变,包括:基金类型(是否 ETF),是否含有联接基金,指数类型(宽基、行业、Smart Beta),第几只跟踪相关标的的指数产品(覆盖次数),基金经理性别,基金费
2、率(管理费+托管费);长期因子的变化是随着时间的推移逐渐累积的,包括:产品成立时间,基金经理从业年限,基金公司布局指数产品时间,基金公司指数产品数量,基金公司非指数权益规模(体现公司平台);短期因子每期变化较大,包括产品业绩和销售费用。不变因子和长期因子影响产品长期规模不变因子和长期因子影响产品长期规模 通过逐步回归和最小角回归分析,对指数基金长期规模影响最显著的不变因子和长期因子共有四个,分别是基金成立时间、基金公司被动产品数量、基金公司非指数权益规模、指数类型。首先,成立越久的指数基金,客户积累越多,品牌营销越持久,规模也可能越大。基金公司被动产品数量越多,产品总规模越大,两者虽不具备因果
3、性,但却存在同步变化。由于市场风格很难预测,而产品营销定位不可能频繁切换,因此被动“等风来”的思路适用于指数产品营销,布局丰富的产品线对于打算着力发展指数业务的公募基金公司是非常重要的。基金公司的非指数权益规模间接反映了基金公司在权益产品方面的布局、投入和市场影响力,从统计数据来看,其与规模存在较强相关性。不变因子中对规模影响较大的是指数类型,目前看来宽基指数的被动产品容易做出规模,而 Smart Beta 和行业指数则很难做大。其他对于指数基金规模存在影响的不变因子和长期因子,按照最小角回归结果来看,重要性排序依次为:第几只跟踪相同标的指数产品,是否为 ETF,是否有连接基金,基金费率,基金
4、公司布局指数产品时间,现任基金经理性别,基金经理从业年限。短期因子决定产品规模的短期变动短期因子决定产品规模的短期变动 从时间序列的角度,短期因子中,基金公司当期销售费用、滞后一期产品业绩表现,对规模短期变化产生显著影响。产品营销费用侧面反映了指数产品的销售投入;产品业绩对规模的影响则存在滞后效应,前半年的业绩爆发往往会对后半年的规模增长打下良好基础。从经营的角度来看,前半年业绩好的产品,基金公司在后半年更应加强营销推广。风险提示风险提示 测算采用历史数据,未来不一定会重演历史,统计结果仅供参考。图图:影响长期规模最显著的几个因子:影响长期规模最显著的几个因子与规模的相关性矩阵与规模的相关性矩
5、阵 表:对长期规模影响较大的因子表:对长期规模影响较大的因子 因子名称因子名称 coef 产品成立时间 0.31 基金公司指数产品数量 0.30 指数类型 1 0.11 指数类型 2 0.37 表:对短期规模变动影响较大的因子表:对短期规模变动影响较大的因子 因子名称因子名称 基金公司销售费用变化 0.17 6 个月收益率(滞后一期)0.09 分析师:分析师:张张 超超 S0260514070002 020-87578291 分析师:分析师:罗罗 军军 S0260511010004 020-87579006 识别风险,发现价值 请务必阅读末页的免责声明 2 2/2424 金融工程|专题报告 目
6、录索引目录索引 一、公募指数基金规模概况一、公募指数基金规模概况.4 二、影响指数基金规模的因素二、影响指数基金规模的因素.7 三、指数产品长期规模归因分析:从截面数据三、指数产品长期规模归因分析:从截面数据维度维度.13(一)数据收集.13(二)数据预处理.13 1、对分类型因子进行编码.13 2、离群样本的处理.13 3、数据标准化.14(三)模型建立.14 1、线性回归模型.14 2、逐步回归模型.15 3、最小角回归模型.16(四)计算结果.16 四、指数产品规模变化归因分析:从时间序列四、指数产品规模变化归因分析:从时间序列维度维度.18(一)数据处理.18(二)回归模型及结果.19
7、(三)典型案例分析.20 五、结果分析五、结果分析.21 识别风险,发现价值 请务必阅读末页的免责声明 3 3/2424 金融工程|专题报告 图表索引图表索引 图 1:公募指数基金数量变化情况.4 图 2:各类产品规模(2018 年 6 月 30 日).4 图 3:成立时间超过一年的公募指数产品规模分布(剔除偏离较大的离群样本).5 图 4:指数产品(剔除分级和 QDII)规模变化(单位:亿元).7 图 5:标的覆盖时间与指数产品规模的关系(沪深 300 为例).9 图 6:基金费率与指数产品规模的关系(沪深 300 为例).10 图 7:前十大指数产品(合并联接和 C 类产品)成立时间.10
8、 图 8:基金经理从业年限与指数产品规模的关系.11 图 9:指数产品规模与布局指数基金时间(左)和指数产品数量(右)的关系.11 图 10:非指数权益规模与指数产品规模的关系.12 图 11:最小角回归系数变化.17 图 12:业绩因子间的相关性散点图.18 图 13:四个短期因子与规模增长率的散点图.20 图 14:南方中证 500ETF 产品收益率、销售费用变化与规模变化(%).21 图 15:易方达创业板 ETF 产品收益率、销售费用变化与规模变化(%).21 图 16:选出的数值型因子以及因变量之间的相关性矩阵.22 表 1:基金公司权益规模及指数产品(剔除分级和 QDII)规模概况
9、.5 表 2:按是否 ETF 分类的规模(成立满一年,剔除分级).8 表 3:按是否有联接基金分类的规模(成立满一年,剔除分级,合并联接和 C 类).8 表 4:按指数类型分类的规模(成立满一年,剔除分级,合并联接和 C 类).8 表 5:按基金经理性别分类的规模(成立满一年,剔除分级,合并联接和 C 类)9 表 6:候选因子定义及取值类型.12 表 7:9 只超大规模指数基金信息.14 表 8:逐步回归结果.16 表 9:时间序列回归候选因子定义及取值类型.19 表 10:时间序列回归数据(单位:%).19 表 11:简单线性回归结果.20 识别风险,发现价值 请务必阅读末页的免责声明 4
10、4/2424 金融工程|专题报告 一、公募指数基金规模概况一、公募指数基金规模概况 公募指数基金最早出现是在2003年天同基金发行了天同180指数基金(现万家上证180),拉开了指数基金发行的序幕,发行数量变化情况如图1所示。截止至2018年6月30日,全市场权益类被动产品规模已经达到约3800亿元。图图1:公募指数基金数量变化情况公募指数基金数量变化情况 数据来源:Wind 图图2:各类产品规模(各类产品规模(2018年年6月月30日)日)数据来源:Wind 0100200300400500600700指数基金数量(只)01,0002,0003,0004,0005,0006,0007,000
11、8,0009,000规模合计(亿元)识别风险,发现价值 请务必阅读末页的免责声明 5 5/2424 金融工程|专题报告 由于公募基金的收入主要来源于管理费,因此规模和管理费率成为影响公司业绩的主要因素。在大量基金产品存在较高同质化的情况下,特定产品类型的管理费率已形成市场均衡,因此存在更大不确定性的因素影响公司管理规模。本篇报告主要通过定量分析,研究指数基金规模受到哪些因素的影响较大。为了研究的有效性,我们不考虑成立时间不足一年的产品。在对市场上现存被动产品进行规模统计时,由于分级产品和QDII指数产品的特殊性,我们将这两类基金从样本中剔除;另外将同一产品存在A类、C类的情况合并统计;将存在联
12、接基金的ETF与其联接基金合并统计。截至2018年6月30日基金公司半年报发布时,统计样本共有204只(后称“样本”),规模分布情况如图3所示。图图3:成立时间超过一年的公募指数产品规模分布(剔除成立时间超过一年的公募指数产品规模分布(剔除偏离较大的偏离较大的离群样本)离群样本)数据来源:Wind 从图中可以看到,大多数的指数基金规模都在58亿以内(规模超过58亿的离群样本在图中没有显示)。有7只基金的规模达到了100亿以上,规模最小的只有218万,最大的有348亿,分布非常不均匀。此外,我们从基金公司的层面总结,表1给出了各个基金公司对应的权益规模以及指数产品规模,这里权益产品包含了所有股票
13、型和混合型产品,指数产品剔除了分级基金和QDII基金。可以看到,在50家发行过权益指数基金的公司中,只有12家公司的指数产品规模占比超过10%。表表 1:基金公司权益规模及指数产品(剔除分级和基金公司权益规模及指数产品(剔除分级和 QDII)规模概况)规模概况 基金公司基金公司 指数产品规模指数产品规模(亿元)(亿元)权益规模权益规模(亿元)(亿元)指数产品规模占比指数产品规模占比(%)华润元大基金 5.4 6.8 80.2 天弘基金 107.1 208.6 51.3 识别风险,发现价值 请务必阅读末页的免责声明 6 6/2424 金融工程|专题报告 华泰柏瑞基金 251.3 635.1 39
14、.6 华夏基金 722.3 1993.7 36.2 南方基金 418.3 1609.7 26.0 华安基金 238.4 1058.3 22.5 嘉实基金 363.4 1775.5 20.5 国联安基金 18.7 110.1 16.9 广发基金 171.2 1046.1 16.4 华宝基金 42.0 276.3 15.2 易方达基金 306.3 2054.0 14.9 汇添富基金 166.9 1444.3 11.6 国泰基金 85.1 920.5 9.3 国寿安保基金 9.2 106.7 8.6 浙商资管 0.4 5.7 7.8 大成基金 25.6 341.8 7.5 博时基金 93.1 130
15、5.8 7.1 国投瑞银基金 10.9 154.3 7.0 工银瑞信基金 41.2 619.6 6.7 万家基金 14.2 228.5 6.2 东海基金 0.5 8.4 6.2 前海联合基金 0.5 11.9 4.4 农银汇理基金 8.3 209.0 4.0 前海开源基金 10.0 287.4 3.5 银河基金 8.8 259.9 3.4 建信基金 12.8 399.2 3.2 景顺长城基金 17.2 565.1 3.0 民生加银基金 2.4 81.0 2.9 长盛基金 5.3 211.7 2.5 东吴基金 1.0 40.9 2.3 华富基金 0.9 42.2 2.2 诺安基金 4.6 208
16、.5 2.2 泰信基金 0.5 26.1 2.0 申万菱信基金 7.2 365.2 2.0 长安基金 0.6 28.8 2.0 交银施罗德 9.9 526.2 1.9 海富通基金 2.0 117.8 1.7 汇丰晋信基金 3.3 291.2 1.1 鹏华基金 11.5 1038.4 1.1 浦银安盛基金 0.9 90.5 0.9 融通基金 4.2 441.5 0.9 招商基金 8.6 1047.7 0.8 益民基金 0.1 13.4 0.6 中信保诚基金 0.9 242.3 0.4 银华基金 1.6 556.5 0.3 识别风险,发现价值 请务必阅读末页的免责声明 7 7/2424 金融工程|
17、专题报告 上投摩根基金 0.3 417.4 0.1 中银基金 0.5 435.2 0.1 富国基金 2.5 1865.9 0.1 平安大华基金 0.2 138.5 0.1 长信基金 0.3 228.1 0.1 数据来源:Wind 从历史数据来看,2007年以来,指数基金经历了一个快速发展的时代,图4展示了公募指数产品总规模以及平均规模的变化情况。可以看到指数产品总规模不断增长,但平均规模却在逐年下降,原因之一是每年新增加的指数产品数量较多,而刚成立的基金一般规模较小,拉低了平均水平;原因之二是指数总体下跌,单个产品规模出现萎缩。图图4:指数产品指数产品(剔除分级和(剔除分级和QDII)规模变规
18、模变化(单位:亿化(单位:亿元元)数据来源:Wind 二、影响指数基金规模的因素二、影响指数基金规模的因素 在进行定量分析之前,我们先根据经验上的判断,初步选出了15个有可能对基金规模产生影响的因子。这些因子可分为三类:不变因子,长期因子,短期因子。不变因子代表基金产品的固有属性,不会随着时间推移而改变。这类因子主要有六个:基金类型(是否ETF),是否含有联接基金,指数类型(宽基、行业、Smart Beta),第几只跟踪相关标的的指数产品(覆盖次数),基金经理性别,基金费率(管理费+托管费)。第一个因子是基金类型。考虑的是基金是否为ETF。按照经验来看,ETF的规模往往比普通的场外指数基金更容
19、易做大规模。我们观察达到规模前十大的指数基010203040506070809010005001000150020002500300035002007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017总规模平均规模 识别风险,发现价值 请务必阅读末页的免责声明 8 8/2424 金融工程|专题报告 金,排在前九位的都是ETF。我们又按照该因子统计了样本中指数基金的平均规模情况,我们发现ETF的规模确实明显大于非ETF指数基金的规模。表表 2:按是否按是否 ETF 分类的规模(成立满一年,剔除分级)分类的规模(成立满一年,剔除分级)数量数量(只)
20、(只)平均规模(亿元)平均规模(亿元)ETF 107 24.6 非 ETF 指数基金 97 5.4 数据来源:Wind 第二个会影响规模的因素是,该基金是否含有联接基金,这是因为我们观察到规模排在市场前十的ETF,均发行了联接基金。联接基金的发行有利于投资者以多样化的渠道进行基金产品购买,这里我们列举了样本中按是否含有联接基金分类,各类指数基金的规模情况。表表 3:按是否有联接基金分类的规模(成立满一年,剔除分级,合并联接和按是否有联接基金分类的规模(成立满一年,剔除分级,合并联接和 C 类)类)数量数量(只)(只)平均规模(亿元)平均规模(亿元)有联接基金的 ETF 72 34.4 无联接基
21、金的 ETF 35 4.4 非 ETF 指数基金 97 5.4 数据来源:Wind 指数类型是第三个影响规模的因素。指数类型指的是基金跟踪标的指数的类型,目前共有三类,分别是宽基指数、行业指数和Smart Beta。从统计结果来看,宽基指数的认可度较高、产品发行时间相对较长,平均规模也比另外两类指数产品更大。而行业指数基金和Smart Beta产品的平均规模目前来看处于相同数量级,市场认可度仍有待提升。表表 4:按指数类型分类的规模(成立满一年,剔除分级,合并联接和按指数类型分类的规模(成立满一年,剔除分级,合并联接和 C 类)类)数量数量(只)(只)平均规模(亿元)平均规模(亿元)宽基指数
22、97 26.6 行业指数 76 5.8 Smart Beta 31 4.1 数据来源:Wind 另外,由于指数产品存在同质化的原因,市场首发效应非常明显。对于跟踪同一标的指数的产品,一般看来,越早跟踪的产品,规模会越大,不过这个因子与成立时间存在较强的相关性。以市场上跟踪最多的沪深300指数为例,截止到2018年6月30日,上市满一年的相关产品共有18只。我们根据成立时间进行排序,观察其规模的变化情况,如图5,横轴是第几只覆盖沪深300指数的序号,纵轴是规模。通过线性回归,我们发现越晚覆盖标的的产品,规模相对越小。识别风险,发现价值 请务必阅读末页的免责声明 9 9/2424 金融工程|专题报
23、告 图图5:标的覆盖时间与指数产品规模的关系(沪深标的覆盖时间与指数产品规模的关系(沪深300为例)为例)数据来源:Wind,广发证券发展研究中心 同样由于产品同质化问题,指数基金的规模与营销能力存在很强的正相关关系。考虑到基金经理性别可能对产品营销与宣传产生不同的影响,我们也将其暂且列为可能影响指数产品规模的一个因素。通过统计现任基金经理性别(有多位基金经理掌管的产品,我们只取排在第一位基金经理的性别数据),我们发现女性基金经理管理的指数产品平均规模显著大于男性基金经理的平均管理规模。表表 5:按基金经理性别分类的规模(成立满一年,剔除分级,合并联接和按基金经理性别分类的规模(成立满一年,剔
24、除分级,合并联接和 C 类)类)数量数量(只)(只)平均规模(亿元)平均规模(亿元)女性 38 23.6 男性 166 13.6 数据来源:Wind 第六个影响因素是基金费率。同样是由于指数产品高度同质化原因,长期配臵的客户可能对基金费用更为敏感。这里费用指的是托管费率与管理费率之和,直观上来看,费用越高,在相同条件下,客户选择其他产品的可能性更大。基金管理人的管理费收入为管理费率与规模的乘积,因此如何确定费率使得这一乘积最大化,是值得基金公司思考的问题。这里同样以沪深300指数基金为例,我们看到图6的回归结果确实显示出,费率和规模呈现一定的负相关关系。05E+091E+101.5E+102E
25、+102.5E+103E+103.5E+104E+104.5E+105E+1002468101214161820基金规模(元,合并联接和C类)线性(基金规模(元,合并联接和C类))识别风险,发现价值 请务必阅读末页的免责声明 1010/2424 金融工程|专题报告 图图6:基金费率与指数产品规模的关系(沪深基金费率与指数产品规模的关系(沪深300为例)为例)数据来源:Wind,广发证券发展研究中心 上面六个因子为代表基金恒定属性的不变因子。第二类影响规模的因子是长期因子。长期因子的变化是随着时间的推移逐渐累积的,对基金规模的影响体现为长期效应,这类因子共五个:产品成立时间,基金经理从业年限,基
26、金公司布局指数产品时间,基金公司指数产品数量,基金公司非指数权益规模(体现公司平台)。首先影响规模的是指数基金成立时间。对一个成长性良好的产品,其规模整体上应该随着时间的推移而变大,所以产品成立时间很可能会对基金的规模产生正向影响。我们观察到目前规模排在前五位的指数基金,成立时间都在5年以上,规模排在全市场第一位的华夏上证50ETF更是已经成立超过13年。图图7:前十大前十大指数产品指数产品(合并联接和合并联接和C类产品类产品)成立时间成立时间 数据来源:Wind 05E+091E+101.5E+102E+102.5E+103E+103.5E+104E+104.5E+105E+100.00 0
27、.20 0.40 0.60 0.80 1.00 1.20 1.40 基金规模(元,合并联接和C类)线性(基金规模(元,合并联接和C类))048121601020304050成立年限(年,右)基金规模(十亿元,左)识别风险,发现价值 请务必阅读末页的免责声明 1111/2424 金融工程|专题报告 基金经理的从业时间较长,会形成一定的客户积累,管理规模也可能更大。我们对样本中指数基金的情况进行了统计,从图8的回归结果可以看出,这两者之间确实存在一定的正相关关系。当然,基金经理从业年限也可能和指数产品成立时间这个因子存在较强相关性,在后面的多元回归中我们会进一步处理因子共线性的问题。图图8:基金经
28、理从业年限与指数产品规模的关系基金经理从业年限与指数产品规模的关系 数据来源:Wind,广发证券发展研究中心 一个基金公司越早开始布局指数基金,指数产品的数量越多,在市场先发和客户积累方面都具有更大优势,对应的产品规模往往会越大。这种正相关关系也反映在图9的回归结果当中。图图9:指数产品规模与布局指数基金时间(左)和指数产品数量(右)的关系指数产品规模与布局指数基金时间(左)和指数产品数量(右)的关系 数据来源:Wind,广发证券发展研究中心 基金公司剔除指数后的权益规模,从侧面反应公司总体权益规模与客户体量,可能与指数规模具有很强的正相关关系,是公司平台大小的一种体现。05E+091E+10
29、1.5E+102E+102.5E+103E+103.5E+104E+104.5E+105E+1002468101214基金规模(元,合并联接和C类)线性(基金规模(元,合并联接和C类))01E+102E+103E+104E+105E+1005101520基金规模(元,合并联接和C类)线性(基金规模(元,合并联接和C01E+102E+103E+104E+105E+1005101520基金规模(元,合并联接和C类)线性(基金规模(元,合并联接和C 识别风险,发现价值 请务必阅读末页的免责声明 1212/2424 金融工程|专题报告 图图10:非指数权益规模与指数产品规模的关系非指数权益规模与指数产
30、品规模的关系 数据来源:Wind,广发证券发展研究中心 上述长期因子和不变因子共同对基金长期规模的累积产生影响。而短期因子每期变化较大,不具备累积效应,它们对基金规模的短期的变化具有较大影响。短期因子包括产品业绩、当期销售费用。产品业绩表现是一类常用的短期因子,我们本希望分别关注产品短期业绩和长期业绩的情况,但由于成立满三年的产品对于后续回归模型来说数量太少,因此这里只考虑样本最近1年的收益率、最大回撤以及信息比率3个因子。另一个短期因子是销售能力,对于基金公司销售能力最直接的指标是在基金公司年报与半年报中披露的客户维护费和销售服务费(合计基金营销费用),它直接反映了基金公司的营销力度,也从侧
31、面反映出公司可能在指数产品营销方面的投入。至此,我们首先简单分析了可能对指数基金规模具有重要影响的一些因素。表6总结了上述15个候选因子的定义以及它们的取值类型。表表 6:候选因子定义及取值类型:候选因子定义及取值类型 因子名称因子名称 因子定义因子定义 因子因子类型类型 基金类型 分为 ETF 和非 ETF 两类 不变因子 是否有联接基金 如名称所示 不变因子 指数类型 分为宽基指数,行业指数和 Smart Beta 三类 不变因子 第几只跟踪相同标的的指数产品 如名称所示 不变因子 基金费率 管理费率加托管费率 不变因子 基金经理性别 分为男性和女性两类 不变因子 产品成立时间 基准时间减
32、发行时间,以年为单位,四舍五入取整 长期因子 基金经理从业年限 如名称所示,以年为单位 长期因子 基金公司布局指数产品时间 基准时间减去基金公司发布的第一只指数基金的时间,以年为单位 长期因子 基金公司指数产品数量 如名称所示 长期因子 01E+102E+103E+104E+105E+1001E+112E+11指数基金规模(元,合并联接和C类)线性(指数基金规模(元,合并联接和C类))识别风险,发现价值 请务必阅读末页的免责声明 1313/2424 金融工程|专题报告 基金公司非指数权益规模 基金公司(股票型+混合型-被动产品)的规模 长期因子 过去一年收益率 以基准时间为终点前推一年的收益率
33、 短期因子 过去一年最大回撤 以基准时间为终点前推一年的最大回撤率 短期因子 过去一年信息比率 以基准时间为终点前推一年的信息比率 短期因子 基金公司销售能力 基金公司年报或半年报中披露的客户维护费与销售服务费之和 短期因子 数据来源:Wind,广发证券发展研究中心 三、指数产品三、指数产品长期长期规模归因分析规模归因分析:从截面数据维度:从截面数据维度(一)数(一)数据收集据收集 由于产品规模的截面数据是长期积累的结果,因此这部分我们只考虑不变因子和长期因子的影响。在前述样本中,满足条件的共204只被动产品,有些包含联接基金,有的包含C类基金,我们对这些实际上是同类产品的规模数据进行了合并处
34、理,最终把所有提取的数据汇总到一起,得到了一张204*12的数据表,204为样本量,12为因子自变量(11个)加上因变量(基金规模)。这里因子数据和规模数据全部取2018年6月30日基金公司半年报发布时的截面数据。(二)数据预处理(二)数据预处理 1、对分类型因子进行编码对分类型因子进行编码 因子的数据类型有实数型、整数型和分类型三种,对于实数型和整数型数据,把它们并成为数值型数据,其特点是它们所取的数值有确切的含义,而且同一个因子的不同数值间是可比较的。而对于分类型数据,数据记录的形式可能是数值或者字符串,不同的记号只是为了区分不同的类别,不同类别之间是不存在大小关系的。然而数学模型只能处理
35、数值型的数据,所以在建模之前需要对分类型数据进行编码。经典的编码方式为One-Hot编码,也称为哑变量转换,具体方法如下:对于一个有N钟不同取值的分类型因子,我们用N个取值为0或1的衍生因子来取代原始因子,N个衍生因子中只有一个取值为1,其余取值为0,所以N个衍生因子整体的取值一共有N种不同情况,分别代表N个类别。以指数类型为例,取值一共有Smart Beta,行业指数和宽基指数三类,所以编码的时候就产生三个衍生因子,(0,0,1)表示Smart Beta,(0,1,0)表示行业指数,(1,0,0)表示宽基指数。需要注意一个问题,对于任意一个原始因子,其对应的全部衍生因子取值的和为1,说明衍生
36、因子之间存在线性依赖关系,也就是共线性现象,所以我们还需要在编码完成之后,随机选择一个衍生变量做删除处理。同样以指数类型为例,我们删除第一个衍生变量,即用(0,1)表示Smart Beta,(1,0)表示行业指数,(0,0)表示宽基指数。通过编码的操作,我们就把数据全部转换成了数值类型。2、离群样本的处理离群样本的处理 识别风险,发现价值 请务必阅读末页的免责声明 1414/2424 金融工程|专题报告 在收集数据的过程中,常会存在离群的样本,所谓离群指的是该样本的取值与大多数样本的取值偏差较大,容易对统计结果造成偏差,所以需要在建模之前识别出离群样本,并把它们删除。由于研究的是影响基金规模的
37、因素,这里主要考虑因变量的离群情况。通过统计,规模大于75亿的基金共有9只,而且它们的规模比其他指数基金至少多了一个数量级。进一步考察这9只超大规模的基金,如表7所示,可以发现,它们对应的一些因子的取值有很大的相似性,比如它们都是ETF,都包含了联接基金,产品成立时间都较长等。如果把这些基金样本纳入我们的模型中,很可能会过分放大了一些因子的影响,反而掩盖了另一些因子的重要性,影响分析过程的准确度和稳定性,所以我们把这9个离群样本从原数据中删除。表表 7:9 只超大规模指数基金信息只超大规模指数基金信息 基金名称基金名称 产品成立时间产品成立时间(年)(年)是否是否 ETF 基金经理从业年限基金
38、经理从业年限(年)(年)是否有联接基金是否有联接基金 指数类型指数类型 华夏上证 50ETF 14 是 9 是 宽基指数 华夏沪深 300ETF 9 是 9 是 宽基指数 华安上证 180ETF 12 是 12 是 宽基指数 华泰柏瑞沪深 300ETF 6 是 9 是 宽基指数 南方中证 500ETF 9 是 5 是 宽基指数 嘉实沪深 300ETF 13 是 4 是 宽基指数 易方达创业板 ETF 7 是 2 是 宽基指数 易方达沪深 300ETF 9 是 7 是 宽基指数 汇添富中证上海国企 ETF 2 是 9 是 行业指数 数据来源:Wind,广发证券发展研究中心 3、数据标准化数据标准
39、化 由于不同因子的计量单位不同,它们的取值会有很大的差异,从而会对模型的求解带来不稳定性,所以预处理的最后一步还需要分别对每一个数值型的因子进行标准化处理。标准化的计算方法如下:si=其中si为标准化后的取值,为因子原始取值。(三)模型建立(三)模型建立 1、线性回归模型线性回归模型 考虑到模型的解释性以及求解的简便性,我们的归因分析方法选用了线性模型,包括逐步回归模型以及最小角回归模型,两者都基于线性回归模型。首先我们给出线性回归模型的定义:识别风险,发现价值 请务必阅读末页的免责声明 1515/2424 金融工程|专题报告 yi=0+=1+其中yi为第i个样本的因变量取值,为回归系数,为第
40、i个样本对应第j个因子的取值,为特异因子,用来解释其它因子解释不了的部分。可以用最小二乘法对回归系数的估计进行求解,解的形式如下:=1 其中=0 ,=111111,=1 由于在估计中涉及到矩阵求逆的问题,当样本量相对于因子数量较少或者是因子之间存在共线性现象时,矩阵可能会不可逆或者求逆的结果不稳定,这时线性回归方法将不再适用。逐步回归模型以及最小角回归模型作为线性回归模型的推广,可以解决上面提到的共线性问题,同时也能从相关性的角度对因子进行排序,结合这两者的特点从而选出重要的因子。2、逐步回归模型逐步回归模型 逐步回归模型是从一个空模型开始,每一步选择一个因子添加到原有模型中,然后拟合一个线性
41、回归模型。这里涉及到两个关键的问题:第一,每一步中要如何选择添加进去的因子;第二,什么时候停止往模型添加因子。第一个问题与因子的重要性顺序有关,越早添加进去的因子重要性越高。第二个问题与筛选因子有关,最终所有被添加到模型的因子即为我们需要的重要因子。为了解决这两个问题,需要定义一个用于度量模型的优劣程度的评价指标,那么添加因子的原则就是要使得模型在这个指标下获得最大幅度的改进,当没有因子能使模型获得改进时,则停止添加因子。常用的评价指标有两个,分别为AIC和BIC,它们的定义如下:AIC=nln RSS+2k BIC=nln RSS+ln(n)k 其中RSS为拟合的残差平方和,k为模型中的因子
42、数量,n为样本量。两个指标的取值越小,代表模型越好。可以看到,对于同一个模型,当样本量n足够大的时候,BIC的取值会比AIC的取值大,而且一般来说用BIC作为评价指标往往会选择更简单的模型(即选出的因子数量很少),这不利于我们发现更多潜在的影响因子。所以我们在建模过程中将会使用AIC作为模型评价指标。那么逐步回归的过程如下:(1)从一个空模型开始(即模型不包含任何因子);(2)在未添加进模型的因子中搜索,找到一个能使AIC取值下降最多的因子,然后把它添加进模型;(3)重复这个过程,直到找不到任何能使AIC下降的因子,算法结束,得到最终的模型。我们可以从一个更直观的角度来解释这个模型。首先,第一
43、个被选择的因子是 识别风险,发现价值 请务必阅读末页的免责声明 1616/2424 金融工程|专题报告 与因变量相关性最高的因子,相关性高表示该因子对因变量的解释能力强。然后把因变量以及其它因子都分别对该因子做简单线性回归,得到各自的残差,并把它们当作新的因变量以及新的因子。取残差的目的是去掉第一个因子所包含的信息,独立考虑其它因子对因变量的解释能力。接下来,第二个选择的因子是与新的因变量相关性最高的因子,然后同样做简单线性回归,更新得到下一步的因变量与因子。一直重复这个过程,直到剩余的因子对因变量的解释能力变得很弱,则停止筛选过程,得到最终模型。可以看到,逐步回归模型选择因子的基准其实是相关
44、性,按照对因变量解释能力的强弱逐步选出重要的因子。3、最小角回归模型最小角回归模型 最小角回归模型与逐步回归模型相似,也是从相关性出发,选择重要的因子。不同之处是,在逐步回归中,每一步我们都是单独考察一个因子与因变量的相关性,对于已添加的因子,我们不再跟踪它们与因变量的关系;而在最小角回归中,我们会时刻跟踪已添加因子与因变量的相关性。具体步骤如下:(1)从空模型开始,首先选择与因变量相关性最高的因子xk;(2)令从0开始逐渐增大,记录对应的残差向量y xk以及每个因子与此残差的相关性corri(),直到找到一个1使得存在corrk 1=corrl(1),对应的xl为第二个选择的因子;(3)把y
45、 1xk作为新的因变量,xk+xl作为新的因子取代原来的两个因子,然后重复上面的过程,直到全部因子都被选择进去。这个方法在选因子的过程中没有设臵类似逐步回归的停止准则,而是把所有变量按相关性的顺序逐个加入到模型当中。通过最小角回归我们可以知道所有因子重要性排序,但不知道选择多少个因子出来;而逐步回归为我们提供了哪些因子应该被选出来。尽管两个模型选择因子的顺序可能不一样,我们仍然能够综合两者提供的信息以及进一步的分析完成我们的归因分析流程。(四)(四)计算计算结果结果 考虑到截面数据受不变因子和长期因子的影响比较明显,短期因子在截面回归中难以体现其重要性,所以我们暂时把短期因子从数据中剔除,最终
46、我们处理完的数据包含195个样本和12个因子(包含衍生因子),首先对数据应用逐步回归模型,得到下表的结果:表表 8:逐步回归结果:逐步回归结果 因子名称因子名称 coef stderr t P|t|产品成立时间 0.31 0.07 4.37 0.00 基金公司指数产品数量 0.30 0.07 4.28 0.00 指数类型 1 0.11 0.21 0.51 0.61 指数类型 2 0.37 0.19 1.93 0.06 数据来源:广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 1717/2424 金融工程|专题报告 逐步回归模型最终选出了三个因子,按选择的顺序分别为产品成立时
47、间、基金公司指数产品数量、指数类型(由于原始因子已转化为两个衍生因子,逐步回归中把它们当作一个整体进行考虑)。从回归系数来看,除了指数类型,其它两个数值型因子对应的回归系数都是正数,由此说明了它们与基金规模都存在正相关性。接下来我们对数据应用最小角回归,模型会给我们输出因子选择的顺序,以及整个过程中每个因子回归系数的变化(未被选择的因子回归系数为0)。图11展示了回归系数的变化:图图11:最小角回归系数变化最小角回归系数变化 数据来源:广发证券发展研究中心 因子选进模型的顺序为:产品成立时间,基金公司指数产品数量,基金公司非指数权益规模,指数类型2,指数类型1,第几只跟踪相同标的指数产品,是否
48、为ETF,是否有连接基金,基金费率,基金公司布局指数产品时间,现任基金经理性别,基金经理从业年限。上图是回归系数的变化过程。可以看到,前四个选进模型的因子包括了逐步回归选出的三个因子(由于指数类型需要把对应的因子作为一个整体考虑,所以只要其中一个衍生因子被选入,则原始的因子就被选入)。从回归系数变化图可以看到,除了指数类型,前三个选进模型的因子对应的回归系数一直在正值变化,进一步印证了这些因子与基金规模存在正相关关系。最小角回归比逐步回归多选出了一个因子:基金公司非指数权益规模,该因子与基金公司指数产品数量的相关性为0.55。由于最小角回归不像逐步回归一样对因子个数有所限制,所以相关性强的因子
49、会排在前面。最后考虑到对基金规模的解释性,我们认为基金公司非指-0.8-0.6-0.4-0.200.20.40.61234567891011121314第几只跟踪相同标的指数产品费用产品成立时间基金公司非指数权益规模指数类型1指数类型2是否有联接基金1基金经理从业年限基金公司布局指数产品时间现任基金经理性别1基金公司指数产品数量是否etf1 识别风险,发现价值 请务必阅读末页的免责声明 1818/2424 金融工程|专题报告 数权益规模反映了公司平台大小,也是一个对规模具有重要影响的因子。综合两个线性模型的结果,我们判断对指数基金长期规模影响较大的几个因子包括:产品成立时间、基金公司指数产品数
50、量、基金公司非指数权益规模、跟踪指数类型。四、四、指数产品规模指数产品规模变化变化归因分析归因分析:从时间序列维度:从时间序列维度 上述截面分析采用2018年6月30日的数据。截面回归的结果可以说明因变量与自变量之间的共同变动关系,但无法说明两者具备因果关系。因此这一部分,我们再从时间序列的角度对规模短期变动进行归因分析,看看哪些因素的变化会导致短期规模大幅增长。(一一)数据处理数据处理 短期因子主要包括历史业绩表现和基金公司营销费用。历史业绩表现方面,过去12个月的收益率、最大回撤和信息比率三个因子之间的两两相关性非常高,特别是收益率与信息比率之间的相关系数达到了0.97,说明这两个因子的取