1、研究源于数据 1 研究创造价值 规矩规矩:方正单因子方正单因子测试测试之之评价体系评价体系 方正证券研究所证券研究报告方正证券研究所证券研究报告 “远山”量化选股系列(一)金融工程研究 2018.03.06 分析师:分析师:韩韩振振国国 执业证书编号:S1220515040002 TaTab bl le_Authore_Author 联系人:联系人:朱定豪 TEL:021-61375707 E-mail: Table_AuthorTable_Author 相关研究相关研究 请务必阅读最后特别声明与免责条款 TABLE_REPORTINFOTABLE_REPORTINFO 抢跑者的脚步声:基于价
2、量互动的选股因子 投资要点投资要点 “不以规矩,不能成方圆”。没有系统的因子评价体系,难以筑起多因子研究的高楼。本篇报告专注于单因子评价体系的介绍,挖掘能产生 alpha 的因子是量化选股的核心竞争力!主流的因子评价包括 IC 体系和分组测试两大块,两者共涉及到二十余项因子评价指标,共同构建了一套完整的体系。ICIC 评价体系评价体系的核心在于 IC,其基石是主动管理基本定律 IR=IC*。IC的衍生指标有 RankIC、IC 胜率等,IC 衰减可分为时间衰减、市值衰减和行业衰减,我们引入因子半衰期,市值衰减速率等指标来衡量。分组测试分组测试是弱化版的回归,相较于 IC 体系,能更好展现指标收
3、益非线性、交易费用对于收益的实际侵蚀、策略的日度波动特性、策略收益和回撤的具体大小等特性。常做的研究有因子多空组收益和回撤、多头和基准超额、多头收益占比、不同指数内测试、组合分层等。因子相关性因子相关性有两种衡量方式,既可以计算横截面相关性,也可以分组计算分位数的均值。情景分析情景分析是指有些因子上涨时表现更优,有些因子在下跌中更好。通过情景分析,能帮助我们更好地构建因子组合,对因子进行择时。风险提示风险提示 本报告基于历史数据进行评价,不构成任何投资建议。市场未来可能发生较大变化,本报告结论仅供参考。因子评价 IC ICIR IC胜率 IC半衰期 IC市值衰减速率 IC行业衰减 多空收益 多
4、空IR 多空最大回撤 多头收益占比 因子自相关 多头收益超额 因子覆盖率 因子方向 IC显著水平 RankICIR RankIC 金融工程报告 研究源于数据 2 研究创造价值 目录目录 1 规矩:因子评价体系.4 2 量化选股概述.4 3 数据的获取.6 3.1 数据供应商.6 3.2 数据提供形式.6 3.3 数据类型.7 4 数据的处理.7 4.1 异常值修正.7 4.2 空缺值填充.9 4.3 分布调整.9 4.4 数据标准化.10 4.5 因子中性化处理.10 5 IC 评价体系.11 5.1 IC 的定义.11 5.2 主动管理基本定律.12 5.3 IC 衍生:RANKIC.12
5、5.4 IC 衍生:ICIR.13 5.5 IC 衍生:IC 胜率.14 5.6 IC 的时间衰减.15 5.7 IC 的市值衰减.16 5.8 IC 的行业衰减.17 6 因子评价之分组测试.18 6.1 数据的分组.19 6.2 组合的诞生.19 6.3 指标评价体系.20 6.4 多头、空头与多空组.21 6.5 指数内测试.23 6.6 基准的选取.24 6.7 组合分层测试.24 6.8 分组的本质.25 7 因子相关性检验.26 8 情景分析.27 9 风险提示.27 金融工程报告 研究源于数据 3 研究创造价值 图表目录图表目录 图表 1:因子评价体系.4 图表 2:量化投资体系
6、.5 图表 3:单因子测试流程.6 图表 4:数据类型.7 图表 5:原始净利润增长率因子.8 图表 6:3 倍标准差修正法.8 图表 7:固定比率修正法.8 图表 8:中位数极值法.8 图表 9:原始流通市值因子.9 图表 10:调整后的市值(对数流通市值).9 图表 11:非流动性因子原始分布.10 图表 12:非流动性因子调整后分布.10 图表 13:中性化前后非流动因子的市值暴露.11 图表 14:总市值因子的 IC 序列.12 图表 15:因子 IC 和 RANKIC 统计.13 图表 16:FR 因子的 IC 序列.14 图表 17:总市值因子 IC 序列的变化.14 图表 18:
7、价格时滞因子 IC 时间衰减.15 图表 19:价格时滞因子 IC 市值衰减.16 图表 20:价格时滞因子 IC 市值衰减回归.17 图表 21:换手率因子 IC 行业衰减.17 图表 22:IC 体系的局限性.18 图表 23:换手率因子全市场选股的持股数量.19 图表 24:换手率因子的多头换手率.20 图表 25:分组测试中的指标体系.20 图表 26:市值调整换手率因子的统计指标.21 图表 27:总市值因子多空组净值和回撤.21 图表 28:反转因子各组收益.22 图表 29:行业中性反转因子各组收益.22 图表 30:多头收益占比.22 图表 31:净利润同比增长率因子(全市场)
8、.23 图表 32:净利润同比增长率因子(中证 800).23 图表 33:净利润同比增长率因子(中证 500).23 图表 34:净利润同比增长率因子(沪深 300).23 图表 35:CAPM 残差波动率因子累计收益.24 图表 36:CAPM 残差波动率因子年化收益.24 图表 37:因子分层示意图.25 图表 38:IC 检验与分组测试的关系.25 图表 39:因子相关性矩阵.26 图表 40:换手率因子在市值上的暴露.26 图表 41:净利润增长率因子情景分析.27 图表 42:CAPM 残差波动率因子情景分析.27 金融工程报告 研究源于数据 4 研究创造价值“不以规矩,不能成方圆
9、”孟子 1 规矩规矩:因子评价体系:因子评价体系 挖掘 Alpha 因子、评价 Alpha 因子、改进 Alpha 因子是量化投资者一生为之奋斗的目标,而一套严密的因子评价体系是这一切的基石。不以规矩,不能成方圆;没有系统的因子评价体系,难以筑起多因子研究的高楼。主流的因子评价包括 IC 体系和分组测试两大块,两者共涉及到二十余项因子评价指标,共同构建了一套完整的体系。我们可以用它来解答许多实际投资中的疑问:为什么高 IC 的因子收益不一定高?为什么因子在部分指数上效果欠佳?为什么跑赢大盘并不能代表因子具备 Alpha?本篇报告带来方正多因子评价体系,方正多因子评价体系,市场市场最全面的因子评
10、价系统最全面的因子评价系统。图表1:因子评价体系 资料来源:方正证券研究所 2 量化选股概述量化选股概述 量化投资体系可以被有效拆分为量化择时和量化选股,前者专注于在纵轴时间维度上进行判断,后者聚焦于横截面上比较不同股票的优劣。无数的理论研究和实践都指出,择时是比较困难的而且由于维度较少结果不稳定,选股带来的收益更为稳健,5.2 节的主动管理基本定律深刻揭示了这一点。本篇报告专注于量化选股,将择时的问题放到后续报告再做讨论。换而言之在纯选股的体系中,我们始终假设满仓位运行,我们致力于研究如何从在横截面选股上获取 alpha。因子评价 IC ICIR IC胜率 IC半衰期 IC市值衰减速率 IC
11、行业衰减 多空收益 多空IR 多空最大回撤 多头收益占比 因子自相关 多头收益超额 因子覆盖率 因子方向 IC显著水平 RankICIR RankIC 金融工程报告 研究源于数据 5 研究创造价值 图表2:量化投资体系 资料来源:方正证券研究所 量化选股可以大致分为以下几个步骤:1、数据获取、数据获取与清洗与清洗:在早期没有数据供应商介入前,该步骤往往要耗费投资者大量的精力。而随着国内数据供应商越来越多,获取数据的难度下降,数据质量提升,让我们有更多的精力专注于后续研究。2、单因子评价、单因子评价:构建科学有效成体系的因子评价体系,能帮助我们全面了解一个因子的特性。量化投资者每天都在质问自己:
12、我们所暴露的是 alpha 还是 beta,我们从中承担了什么样的风险?挖掘未知的 alpha 因子,带来超额收益正是量化投资最具魅力的地方。3、组合优化、组合优化:从单因子到投资组合,要历经多因子结合,换手率、风格、回撤约束等等限制条件。不同的产品会有不同的约束条件,例如部分资金可能对回撤要求极其严格,而可以适当降低预期收益。4、交易执行、交易执行:交易执行中会遇到滑点、价格冲击等问题,有效地减少交易带来的价格冲击,控制换手降低交易成本,确保订单的完成是这一块研究的核心。5、绩效绩效归因归因:组合的收益归因常用的是 Barra 模型,了解自身组合的收益来源和风险暴露,有助于我们对模型作进一步
13、的完善。相关报告详见“星火”多因子系列(一):Barra 模型初探:A 股市场风格解析和“星火”多因子系列(二):Barra 模型进阶:多因子风险预测。本篇报告专注于第二步单因子评价,挖掘能产生 alpha 的因子是量化选股的核心竞争力!一般认为因子评价有两套系统,分别为 IC评价系统和分组测试评价系统,IC 评价体系简洁高效,分组测试繁琐但能展现更多细节,两者混合使用效率更高。我们在 6.8 节会阐述两者本质其实是一致的,分组是横截面回归的一种弱化形式。单因子的测试单因子的测试步骤分为:数据准备交易条件限制因子的异常处理与标准化因子中性化 因子分组构建组合策略评价因子暴露分析 因子 ICIC
14、 时间衰减/IC 市值衰减/IC 行业衰减/IC 情景分析 我们将分章节介绍上述步骤 量化选股 量化择时 量化投资 金融工程报告 研究源于数据 6 研究创造价值 图表3:单因子测试流程 资料来源:方正证券研究所 3 数据数据的获取的获取 构建多因子模型的第一步在于数据的获取与存储,万事开头难,如果没有靠谱的数据源,数据的抓取与清洗往往耗费我们大量的精力。在理想状态下,数据供应商能为我们提供及时、可靠、整洁的数据,使量化投资人不用再耗费精力在数据清洗上。实际投资中,我们也期望尽可能少的把时间用于下载和清洗数据,将更多的精力用于后期的因子挖掘与模型优化。3.1 数据数据供应商供应商 目前市场上金融
15、终端普遍采用东方财富 Choice 以及 Wind 资讯金融终端等,而主流的量化数据库供应商有 Wind 资讯、恒生聚源、朝阳永续、天软、巨潮、天相、巨灵、国泰安、通联等,数据各有特色。比如像 Wind 资讯数据全,在机构中使用最多,也是我们主要的数据来源。朝阳永续在分析师一致预期、盈利预测数据以及私募基金数据方面占据优势。天软科技在高频行情数据上比较突出。国泰安数据库主要为学术用途其中公司金融数据较为完善。3.2 数据提供形式数据提供形式 目前主要的数据提供方式有三种:一是采用 API 接口,如 Wind、Choice 等均有提供。该类方法往往会限制数据下载量,因此只适合小型数据的下载,批量
16、下载面板数据往往会导致数据超限。部分供应商提供额外数据流量包,购买后可突破流量限制。金融工程报告 研究源于数据 7 研究创造价值 二是落地数据库,如 Wind,聚源等。购买落地数据库后,数据供应商每天会推送所有数据至本地数据库。这意味着每次访问的数据均在本地,自由度较高,不受外部限制,是量化机构投资者主要使用的方式。三是基于第三方平台,如优矿、米矿等平台。近年来随着量化投资走入公众视野,第三方量化研究平台崭露头角。该类平台集成第三方授权数据、回测研究模块,对新人而言更容易上手,对私募而言成本更低,缺点就是模块化程序限制了使用者一定的自由度。方正金工因子回测平台主要数据来源是 Wind 落地数据
17、库,辅以其他数据供应商的一些特色数据。3.3 数据类型数据类型 常见的选股数据类型一般有以下 12 种,分别为交易数据、高频数据、财务数据、另类报表、公告事件、盈利预期、行业特色、股东持股、公募持仓、新闻舆情、指数成分和衍生产品。方正金工的高频系列选股就是在分钟数据上挖掘出新的 Alpha,基金停牌套利是利用个股停牌和基金持股的数据做出的事件类套利策略,在此不再赘述。图表4:数据类型 资料来源:方正证券研究所 4 数据数据的的处理处理 4.1 异常值修正异常值修正 在处理因子的过程中,往往会遇到一些异常值,如净利润增长率因子可能会出现极端大值(上一期净利润接近于 0),在进行后续的回测前,我们
18、要对该类数据做预处理。如果不进行异常值的修正,异常值会干扰因子中性化(回归)的结果,对 IC 等指标的计算也会带来误差。异常值修正的方法大致有以下几种:1、均值标准差修正法:将偏离均值 3 倍标准差的数据拉回 3 倍标准差修正法也称为3法,基于因子的平均值,标准差可以体现因子的离散程度,所以可以通过3法来衡量因子与平均值的距离从而修正极端异常值。=+3 ,+3 3 ,982,2 ,2 +,+我们以 2017/12/29 净利润增长率因子为例,原始的净利润增长率因子充斥着大量异常值,最大的 26962,最小的-118733,如不进行修正严重干扰回归的结果。我们分别展示了 3 倍标准差修正、2%固
19、定比率拉回和中位数极值法。结果表明中位数极值法效果更好,成长类因子稳定性差,异常值波动大,中位数极值法中位数极值法对异常值处理效果更佳对异常值处理效果更佳。图表5:原始净利润增长率因子 图表6:3 倍标准差修正法 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 图表7:固定比率修正法 图表8:中位数极值法-140000-120000-100000-80000-60000-40000-200000200004000005001000150020002500300035004000原始数据-10000-8000-6000-4000-200002000400060
20、00800010000050010001500200025003000350040003倍标准差修正法金融工程报告 研究源于数据 9 研究创造价值 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 4.2 空缺值填充空缺值填充 另一类常见的问题是空缺值,一般而言,我们期望因子的空缺值越少越好,用因子覆盖率来衡量空缺值的数量,则因子覆盖率越大越好。因子覆盖率=因子空缺数量因子总数量 标准化的价量交易型数据空缺值较少,因子覆盖率基本都在 95%以上,但部分基本面因子、分析师一致预期、大数据文本挖掘等另类因子因子覆盖率可能较低,在一定场合下需要填充,比方用于后续回归
21、模型的准备。空缺值的处理的方法一般为中位数替代法、可比公司替代法、历史数据替代法等,在部分情境下直接剔除该股票也是一个不错的选择,一般根据实际需求进行选取相应的方法。1、中位数替代法:以市场中位数或者行业中位数替代 2、可比公司替代法:寻找主营业务相近的可比公司指标替代 3、历史数据插值法:以历史数据填充,或者根据趋势进行插值 4.3 分布调整分布调整 理想状态的因子应呈现出近似正态分布,如果有严重偏离,我们常采用对数、开根号等方式对数原始数据的分布进行调整。一个常见案例就是市值,原始的市值因子呈现出明显的右偏、尖峰、后尾的分布特点,其意义是 A 股小票众多,但少数股票市值极大,尤其是金融和两
22、桶油。以 2017/12/29 数据为例,全市场近 3500 支股票,上证 50 的 50支成分股市值占到了全市场的 32.0%,沪深 300 的 300 支成分股市值占到了全市场的 58.1%。下图展示了原始的流通市值和对数处理后的流通市值分布,后者更接近于正态分布。经典金融学模型假设股价服从几何布朗运动,即收益率服从正态分布,股价服从对数正态分布。因此一般市值因子都会取对数处理,修正后尾分布。图表9:原始流通市值因子 图表10:调整后的市值(对数流通市值)-600-400-20002004006008001000120014001600050010001500200025003000350
23、04000固定比率修正法-250-200-150-100-5005010015020025030005001000150020002500300035004000中位数极值法金融工程报告 研究源于数据 10 研究创造价值 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 4.4 数据标准化数据标准化 由于各个因子的量纲不一致,为方便后续因子加工和回归需要对数据作标准化处理。标准化处理的方式主要有三种:1、对因子原始数据做 ZScore 标准化 2、对因子原始数据进行加权标准化 3、将因子原始数据转换为排序值再归一化 第一种方式是最常用的方法,好处在于能够更多保
24、留因子之间原始的分布关系,但是进行回归的时候会受到极端值的影响;第二种方法是 Barra 收益-风险模型中使用的方法,通过市值加权,能更好的体现出股票对于基准股票池的风险暴露;第三种方式的好处在于排序值的稳健性,容易看出因子和收益率之间的相关性的方向。一般而言,一般而言,去去极值和标准化两步会一起使用,先采取中位数极值极值和标准化两步会一起使用,先采取中位数极值法,后用法,后用 ZScore 做标准化处理。做标准化处理。图表11:非流动性因子原始分布 图表12:非流动性因子调整后分布 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 4.5 因子因子中性化中性
25、化处理处理 我们希望一个因子具有选股能力,更希望一个因子具有额外的选额外的选股能力股能力。如果其选股能力完全被已知因子所解释,那么他给我们带来的增量信息就比较有限。如果在做完因子中性化,新的因子仍具有选股能力,这才是我们真正期待的结果。常用的因子中性化有两种方法:一是线性回归(也叫作正交化),二是分层测试。本节介绍回归法,我们将分层放到 6.7 节再做介绍。010020030040050060070080090010000-2020-4040-6060-8080-100100-120120-140140-160160-180180-200200+个数市值(亿元)0100200300400500
26、60070080090033.544.555.566.5+个数对数市值(亿元)0100200300400500600700-17.5-17-16.5-16-15.5-15-14.5-14-13.5-13其他0100200300400500600700-2-1.5-1-0.500.511.5其他金融工程报告 研究源于数据 11 研究创造价值 前者对数据的处理更为漂亮,可以很好地处理线性相关带来的影响,但对于非线性相关的关系可能效果稍差。后者更为稳健,但带来的问题是中性化处理相对粗糙,丢失一定的信息。因子正交化的方法是横截面多元回归,应变量是待测因子 F,自变量是行业和各类待正交化的因子,回归得到
27、的残差就是中性后的待测因子。以剔除常见因子市值、动量、换手率、波动和行业为例,其中行业为 0-1 哑变量,其余为因子值,回归得到的残差就是纯净的 F因子。=1+2+3+4+5+0市值因子IC0FR因子IC0市值因子IC0金融工程报告 研究源于数据 16 研究创造价值 资料来源:Wind 资讯,方正证券研究所 5.7 IC 的市值的市值衰减衰减 IC 的市值衰减在以往的研究被提及较少,但随着 17 年以来市值因子出现大幅回撤,IC 的市值衰减变得越来越重要。IC 的市值衰减不同于因子的市值暴露,前者用来衡量因子是否在大市值和小市值股票上都具有选股能力,后者用来衡量待检测因子和市值因子的相关性。通
28、过将全市场股票按照市值大小分成 10 组,分别计算各组的 IC,观察比较 IC 的变化趋势来衡量 IC 市值衰减,该指标对应指标在各大小指数内的选股效果。图表19:价格时滞因子 IC 市值衰减 资料来源:Wind 资讯,方正证券研究所 换手率、反转等价量因子体现出较强的市值衰减,即因子在小票上有很好的选股能力,但在大股票上效果欠佳。这解释了为什么有些因子在全局上具有很好的选股能力,但是在沪深300中选股效果一般。仍以价格时滞因子为例,因子在大市值上出现了明显的IC衰减现象,且单调性很强。如果以 IC 衰减速率的平均值来衡量这种现象,其含义是每经过一个因子分组 IC 下降的百分比,公式如下,价格
29、时滞因子 IC 市值衰减速率高,达到 12%。-0.050.000.050.100.150.200.250.30T-2T-1TT+1T+2T+3T+4IC均值市值调整换手率因子IC时间衰减-0.05-0.04-0.03-0.02-0.010.000.0112345678910IC均值市值分组(左小右大)价格时滞因子IC市值衰减金融工程报告 研究源于数据 17 研究创造价值 IC_=(1 1)另一个方法是将市值分组 IC 回归,以回归的系数 k 乘以因子方向 I 代表 IC 的衰减,该方法更稳健,该指标衡量指标衡量市值每市值每增大增大一组一组 IC平均平均下降的值下降的值。后续报告采取该方法计算
30、因子 IC 市值衰减速度,价格时滞因子 IC 市值衰减量为-0.39。IC_=图表20:价格时滞因子 IC 市值衰减回归 资料来源:Wind 资讯,方正证券研究所 5.8 IC 的行业的行业衰减衰减 IC 的行业衰减用来衡量因子在各个不同行业的选股能力,由于不同的行业有不同的投资逻辑,有的考察净利润,有的可能考察销量增速,有的更注重估值,观察指标的 IC 行业衰减有助于我们做更精细化的研究,进一步提高 IC 的预测能力。以换手率因子为例,用 IC 均值来衡量因子在各个行业的选股能力。在银行、非银两个板块上,IC 衰减明显,换而言之这两个板块上不适合用换手率进行选股。换手率因子一定程度可以衡量市
31、场的交易热度,而金融类股票受交易情绪影响较少,股价操纵的程度不高,因此类似因子的选股能力偏弱。图表21:换手率因子 IC 行业衰减 y=0.0039x-0.054R=0.4723-0.07-0.06-0.05-0.04-0.03-0.02-0.0100.01024681012价格时滞因子IC市值衰减金融工程报告 研究源于数据 18 研究创造价值 资料来源:Wind 资讯,方正证券研究所 IC 行业衰减的结果可能稳定性稍差,因为行业分类相比市值分组更具主观,各个行业的股票数量有较大的差异。但是综合来看,仍能提供一定的指导意义。6 因子评价之分组测试因子评价之分组测试 上一节重点阐述了因子评价的
32、IC 体系,IC 体系简洁明了,一步相关性计算就能体现出因子的选股能力,在学术界备受追捧。不过在实际投资中,我们会将 IC 检验作为初步检验,而深入研究更多的还是会采取分组测试的方法来检验一个因子的选股能力,主要原因在于IC 体系难以体现现实的复杂性。例如反转类因子的多头收益钝化,指标收益非线性;例如交易费用对于收益的实际侵蚀;例如实际策略的日度波动特性;例如收益和回撤的具体大小等等。这些问题只有落实在组合中才能得到回答,这也是为什么有些高 IC 指标其实不能带来多少超额收益的原因。图表22:IC 体系的局限性 -0.12-0.10-0.08-0.06-0.04-0.020.00交通运输传媒农
33、林牧渔医药商贸零售国防军工基础化工家电建材建筑房地产有色金属机械汽车煤炭电力及公用事业电力设备电子元器件石油石化纺织服装综合计算机轻工制造通信钢铁银行非银行金融食品饮料餐饮旅游IC均值IC体系局限 非线性 交易费用 具体绩效 日度波动 金融工程报告 研究源于数据 19 研究创造价值 资料来源:方正证券研究所 6.1 数据数据的的分组分组 相比于 IC 在于数学上的优美,数据分组测试则更为实用。在每一个时间节点上,我们根据指标的大小等量地将所有股票分成 N 组,滚动计算每一组的累计收益率,真实模拟根据单因子进行投资的历史收益和回撤的情况。常见分组方法为:假设被选股票数量为 N,将所有股票分为 1
34、0组,则第 i 组的股票数量为N/10*i-N/10*(i-1),为取整。该方法可以尽可能公允地将股票分到各个组别中。例如总股票为 301 支,则各组股票数分别为:30,30,30,30,31,30,30,30,30,30。在个别案例中,若对极大值和极小值不敏感,也可采取将多余股票剔除,例如总股票为 301 支,则只选前 300 支进行选股,每组 30支股票,共 10 组。由于 A 股股票数量不断增加,在全市场选股时每个组合的持股票数量也会增多。如果在 300/500 指数内选股,则组合持股数量始终保持一致。图表23:换手率因子全市场选股的持股数量 资料来源:Wind 资讯,方正证券研究所 6
35、.2 组合的诞生组合的诞生 在分组构建组合时,我们需要特别注意的是交易条件限制,并不是所有股票每天都处于可交易的状态。停牌、一字涨跌停、成交量过低等客观原因会限制实际的买卖,另外我们主观上可能会倾向于交易非 ST 股票、上市一定时间的股票、剔除部分行业股票等等。一般而言,我们会根据指标大小将股票分为 5 组或者 10 组,在月度调仓的频率下构建组合。假设初始资金是 1,那么等权组合的月度回报率 R 的算法如下所示。其中 T 为一个月的交易日个数,N 为组合内的股票数量,是股票每天的收益。R=((1+)1)1 =1 特别注意上述公式是站在每个调仓日的截点上进行计算,每次动050010001500
36、20002500300035002006/02/282006/09/302007/04/302007/11/302008/06/302009/01/312009/08/312010/03/312010/10/312011/05/312011/12/312012/07/312013/02/282013/09/302014/04/302014/11/302015/06/302016/01/312016/08/312017/03/312017/10/31换手率因子持股数量金融工程报告 研究源于数据 20 研究创造价值 态平衡后会使得个股权重重回1,而事实上由于每日股票的波动,在非调仓日的截点上,个股
37、权重并不相等。每个调仓日,我们需要计算组合调仓的手续费 C,手续费 C 可以简记为单边换手率 T 乘以单边费率 Fee。单边换手率 T 的算法如下,P 为个股仓位,单边换手率等于当期仓位变动的绝对值总和的一半。C=T Fee T=12|221111|1 图表24:换手率因子的多头换手率 资料来源:Wind 资讯,方正证券研究所 6.3 指标指标评价评价体系体系 我们有一系列指标来衡量一个股票组合的表现是否优异,常见的指标有收益率、波动率、信息比率、最大回撤、换手率、胜率等等。1、收益率用以衡量组合的盈利水平,R 2、波动率来衡量组合的风险,是收益率的标准差=std(r)3、信息比率来衡量组合的
38、含义是单位主动风险所带来的超额收益,如果将基准设为 0,那么信息比率等于收益率除以波动率IR=()4、最大回撤用以衡量组合历史上发生过的最糟糕的情况,从历史高点下跌的最大幅度,MD=max(1 max()5、胜率用以衡量收益率为正的概率,W 图表25:分组测试中的指标体系 30%40%50%60%70%80%90%100%2006/2/282006/8/312007/2/282007/8/312008/2/292008/8/312009/2/282009/8/312010/2/282010/8/312011/2/282011/8/312012/2/292012/8/312013/2/28201
39、3/8/312014/2/282014/8/312015/2/282015/8/312016/2/292016/8/312017/2/282017/8/31换手率因子多头换手率金融工程报告 研究源于数据 21 研究创造价值 资料来源:Wind 资讯,方正证券研究所 优秀的选股因子,各组收益率应出现明显分化,且具有较好的单调性。如市值调整换手率因子,IC 均值-7.31%、秩 IC 均值-10.25%、年化 ICIR-2.16、年化收益 40.26%、年化波动 15.56%、年化 IR 2.59、胜率74.83%、最大回撤16.41%、自相关性63.11%、因子覆盖率100.00%、IC 半衰期
40、 1.07、IC 市值衰减速度-0.43%、多头年化收益 30.85%、多头收益占比 33.36%、因子方向-1。图表26:市值调整换手率因子的统计指标 资料来源:Wind 资讯,方正证券研究所 6.4 多头、空头与多空组多头、空头与多空组 我们常用多空组的收益来衡量一个因子的表现,具体做法为做多第一组,同时做空最后一组,以多空组的表现来衡量因子的实际选股能力。理想状态下,多空两个组合在其他风险上暴露一致,仅在被检测因子上暴露不同,理想的 alpha 因子多空组净值(单利)应该是一条斜线稳定向上,多空组的收益和回撤可以较好地体现出因子的历史收益和回撤情况。以投资者最感同身受的市值类因子为例,小
41、市值股票从 2007 年到 2016 年,尤其是 2013 年到 2016 表现优异,仅在 2014 年 11 月出现较大的回撤,不过到了 2017 年方向出现反向,全年净值几乎都在下行。我们多空累计收益率推荐以单利计算,因为我们相比较的是不同时期下的因子的净值走势,复利计算的净值曲线会加速加上,导致曲线失真。图表27:总市值因子多空组净值和回撤 信息比率 波动率 收益率 最大回撤 胜率 IC均值秩IC均值年化ICIR年化收益年化波动-7.31%-10.25%-2.1640.26%15.56%年化IR胜率最大回撤自相关性因子覆盖率2.5974.83%16.41%63.11%100.00%IC半
42、衰期IC市值衰减速度多头年化收益多头收益占比因子方向1.07-0.43%30.85%33.36%-1金融工程报告 研究源于数据 22 研究创造价值 资料来源:Wind 资讯,方正证券研究所 多空组的另一个隐含假设是因子收益在各组分布较为均匀,那么只用多空组就可以较好的体现出因子的特征。但是实际情况是,部分因子的单调性欠佳,尤其是原始反转类因子多头收益钝化,多空组的收益 94%来自于空头的贡献(行业中性后 82%来自于空头的贡献)。另一方面,10 分组下收益最高的组别出现在第 3 组,单调性欠佳。由于 A 股实际交易中,做空个股(融券)的成本较高限制较多,该类因子的 alpha 较难获取。反转类
43、因子可以通过行业中性的方法加以改进,其原理可能是行业上的动量干扰了个股上的动量效果,月频上行业呈现出动量而个股呈现反转,两者周期的错配可能导致个股动量的紊乱。图表28:反转因子各组收益 图表29:行业中性反转因子各组收益 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 所以除了多空组的收益和分布外,多头收益占比这个数据也值得关注,可以参考下述算法,该指标用来反映 10 分组下,多头因子的收益占比。多头收益占比=多头()多头 空头 图表30:多头收益占比 0%5%10%15%20%25%30%35%40%(0.50)0.000.501.001.502.002.
44、503.003.504.002006/02/062006/09/062007/04/062007/11/062008/06/062009/01/062009/08/062010/03/062010/10/062011/05/062011/12/062012/07/062013/02/062013/09/062014/04/062014/11/062015/06/062016/01/062016/08/062017/03/062017/10/06回撤累计收益率回撤累计收益率50%52%54%56%58%60%62%64%-20%-15%-10%-5%0%5%12345678910胜率年华超额收益
45、因子分组(左小右大)年化超额收益率月度胜率50%52%54%56%58%60%62%64%-25%-20%-15%-10%-5%0%5%10%12345678910胜率年化超额收益因子分组(左小右大年化超额收益率月度胜率金融工程报告 研究源于数据 23 研究创造价值 资料来源:Wind 资讯,方正证券研究所 6.5 指数内测试指数内测试 除了全市场选股,我们常会做指数内选股,常做的 300/500/1000指数内选股的本质其实是考察因子的市值衰减。指数内选股又可以分为指数内等权和市值加权两种方法,我们以等权为例展示单季度净利润同比增长率因子从 2007/02/012017/12/31 在全市场
46、、800、500、300上的选股表现。图表31:净利润同比增长率因子(全市场)图表32:净利润同比增长率因子(中证 800)资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 图表33:净利润同比增长率因子(中证 500)图表34:净利润同比增长率因子(沪深 300)多头超额收益0.4%空头超额收益-17.8%多空收益19.8%多头超额收益3.8%空头超额收益-18.5%多空收益23.1%0%2%4%6%8%10%12%14%-20%0%20%40%60%80%100%120%140%160%2007/03/012007/08/242008/02/272008/
47、08/202009/02/242009/08/182010/02/122010/08/162011/02/212011/08/152012/02/172012/08/142013/02/182013/08/162014/02/202014/08/142015/02/112015/08/112016/02/152016/08/082017/02/102017/08/07回撤累计收益率回撤累计收益率(全市场)0%2%4%6%8%10%12%14%16%18%20%-20%0%20%40%60%80%100%120%2007/03/012007/08/242008/02/272008/08/2020
48、09/02/242009/08/182010/02/122010/08/162011/02/212011/08/152012/02/172012/08/142013/02/182013/08/162014/02/202014/08/142015/02/112015/08/112016/02/152016/08/082017/02/102017/08/07回撤累计收益率回撤累计收益率(800)金融工程报告 研究源于数据 24 研究创造价值 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 6.6 基准的选取基准的选取 策略的比较基准也是一个值得讨论的话题,一般我
49、们会将策略的多头和基准指数进行对比,比较两者在收益和波动上的差异。基准指数选的太弱,可能会高估策略的收益;基准指数选的太强则会倾向于低估。我们展示一下20072017年CAPM残差波动率因子全市场选股多头与全市场等权、中证全指(市值加权)、10 分组中位数的累计收益曲线与各组年化收益情况。由于我国过去几年表现出强劲的小市值效应,市值加权指数往往表现偏差,普遍跑输等权指数。一般而言,等权组合与等权基准比较,加权组合与加权基准比较更为合理。由于小市值效应,一个随机等权组合(大猩猩选股组合)在过去 10 年往往能跑赢多数加权指数,但这并不能代表这个随机组合具有高超的选股能力。另外两个常被忽略的变量是
50、分红和交易费用。交易费用会侵蚀我们的收益,使得多头收益下滑,降低超额收益。分红在组合中一般假设再分红投资,而一般指数遇到分红会自然滑落,导致超额收益虚高。严格的,如果在多头上考虑分红再投资,那在基准端我们应该用全收益指数进行比较。图表35:CAPM 残差波动率因子累计收益 图表36:CAPM 残差波动率因子年化收益 资料来源:Wind 资讯,方正证券研究所 资料来源:Wind 资讯,方正证券研究所 6.7 组合分层测试组合分层测试 0%5%10%15%20%25%-20%0%20%40%60%80%100%120%140%160%2007/03/012007/08/242008/02/2720