1、第 卷第 期学报.年 月 .,:非负众数回归变量选择及在股指追踪的应用彭丽楠(重庆师范大学 数学科学学院,重庆)摘 要:针对系数具有非负约束的回归模型,结合 惩罚函数,提出了基于众数回归的非负众数回归变量选择方法。在数值计算方面,采用 算法和凸差分算法分别转化众数回归与,然后用乘积迭代算法得到稀疏的非负解。实验表明无论数据具有异常值还是服从厚尾分布,该方法都比众数回归和非负估计变量选择方法好。最后将新提出的非负众数回归变量选择方法运用于中创 股指追踪,发现相比众数回归和非负估计该方法能运用最少的股票得到最好的预测效果,说明其稳健性和有效性。关键词:非负众数回归;惩罚函数;变量选择;中创 指数中
2、图分类号:文献标志码:文章编号:()收稿日期:基金项目:国家社会科学基金青年项目“面板数据下分位数回归模型的高维变量选择及应用研究”();重庆市教委科学技术研究项目“超高维生物大数据的特征筛选与模型平均预测研究”();重庆市基础研究与前沿探索项目“纵向数据下变指标系数模型的统计推断及其应用”()作者简介:彭丽楠(),女,河南安阳人,重庆师范大学数学科学学院硕士研究生,研究方向:应用数理统计。引言随着国内外证券市场的成熟,跟踪对象的国际化,越来越多的投资者开始通过构建指数投资组合跟踪市场指数。一方面,为了控制投入成本,降低市场管理费用,如何选择较少的成分股获取较小的追踪误差是股指追踪的热点,这就
3、是统计学中的变量选择问题;另一方面,股指追踪涉及非负数据,如开盘价、收盘价等,常见的变量选择方法不能直接处理,对此很多学者对非负约束下的变量选择方法进行了研究。等提出了非负 估计方法,证明了高维情况下变量选择 性质;和 提出了非负自适应 估计,减小了较大系数对回归结果的影响。针对非负 与非负自适应 在高度相关数据中表现差的特点,和提出了非负弹性网估计,等提出了非负自适应弹性网估计方法。以上是 家族的延伸,这些压缩函数不能同时满足稀疏性、无偏性和连续性,所以 和 在此基础上提出了非负 方法,并通过实验验证了所提方法的优越性。前述非负变量选择方法都基于最小二乘估计,对生活中出现的异常值或误差服从厚
4、尾分布的数据处理效果不够理想。和 提出了稳健的众数回归估计,可以弥补最小二乘估计的不足。众数回归自提出以来,被应用于各个模型,如 和 线性模型、等非线性模型、等变系数模型、等部分线性可加模型;同时也被应用于各个数据类型,如 等缺失数据、等纵向数据、杜悦和马学俊成分数据、等高维数据。梳理相关文献发现,已有的研究成果中非负估计的研究几乎都是非稳健的,众数回归的研究很少考虑系数非负的约束,所以将二者结合进行研究是一个很有学术意义的问题。本文将众数回归和非负估计相结合进行了变量选择研究,给出了估计算法,通过仿真表明该算法的变量选择效果良好,并通过中创 股指追踪证明其可行性。非负众数回归假设,是来自如下
5、线性模型的一组独立同分布样本:,()其中:是响应变量;(,)是 维协变量;(,)是未知参数;是随机误差。本文假设 和 都经过了中心化处理,所以回归方程不含截距项。基于 和 的研究,对模型(),众数回归是极大化如下目标函数:()()。()其中:()(),是控制估计稳健性的带宽参数,()是关于 对称的核密度函数。为计算方便常用高斯核函数,即:()()。()因此非负众数回归估计是最小化如下带约束的目标函数:()。()非负众数回归估计可以得到 在非负条件下的结果,但不能剔除不重要的协变量,减少计算量。现假设在回归中一些协变量对响应变量无关,即该协变量对应的系数为,针对非负众数回归估计引入 惩罚函数使得
6、 系数被正确估计为,因此非负众数回归惩罚估计是最小化如下带约束的目标函数:()()。()其中,惩罚函数()定义如下:(),|,。()与 是非负正则化参数,决定了解的稀疏性。由于估计 是基于稳健众数回归和 方法在非负约束条件下得到的,我们将其称为非负众数回归 估计。估计算法直接求解()式比较困难,下面我们基于凸差分算法、算法和乘积迭代算法给出非负众数回归惩罚估计的求解算法。对于带惩罚的非负众数回归估计,基于 和提出使用凸差分算法对非负最小二乘 惩罚函数的求解,即()式可写为如下形式:()()()()()()式可以分解为两个凸函数的差:前者是(,)上的常数,后者是,上的单调递减函数。因此利用凸差分
7、算法()式可以转化为如下形式:()(),()其中:;是第 个()元素为,其余元素为 的 维列向量;是第 个()对角元素为,其余对角元素为 的 阶对角矩阵。将 和 提出的 算法进行改进,则求解非负众数回归 惩罚估计算法如下:给定初始值()。步:估计权重()()()(),。步:更新()()()()()()()()()()其中:(,);(,);是 对角矩阵,其第 个对角元素为()。显然,变换后 步关于()的求解转换成了如下非负二次规划问题的求解:最小化:()约束:|()其中:;可以直接利用乘积迭代算法求解()式,具体过程如下:记(),(),又记(),(),()。则()(),()(),则迭代步骤如下:
8、()()()()|()。()其中:为 的第 个分量,为 的第 个分量。迭代()式直至收敛,就可以得到非负众数回归 估计的解。基于以上讨论,可将非负众数回归 估计的求解算法概括如下:步骤:给定初始值(),()可由非负最小二乘得到;步骤:当前估计值()下,通过()式计算得到新估计();步骤:迭代步骤 直至收敛,即()()。调节参数非负众数回归带宽 的选择和惩罚函数参数 与 的选择会直接影响估计的效果,所以选择合适的带宽和参数对估计的结果十分重要。带宽 控制着非负众数回归的稳健性和有效性,本小节给出理论与实践的最佳。假设随机误差 与协变量 无关,则非负众数回归渐进方差与最小二乘渐进方差之比为:()(
9、)(),()其中:是 的方差。因此 的理想选择是:()()()。()由()式知,不依赖于,只依赖于 的误差分布,实际中 的分布一般不知道,所以不能得到()和(),可以用下面的公式估计()和():()(),()(),()其中:;()为()的一阶导数;()为()的二阶导数。此时()可被估计为()()(),为 的标准差,利用网格搜索法,很容易找到 的最小值。变量选择的过程取决于 调节参数 与 的选择,实践中可以对不同值的 与 组成精细二维网格进行调节。为了便于比较本文基于 和的建议只考虑 的情况,鉴于贝叶斯信息准则良好的理论性质,本文利用 准则来选取最优的,即通过最小化以下目标函数来选择:()()(
10、),()其中:是在给定 和 下非负众数回归的估计值;是估计值 中非 元素的个数。模拟仿真考虑线性模型(),令参数 为(,),协变量 (,)产生于多元正态分布,第 个元素与第 个元素的相关性大小为,为中等相关,为强相关。本文随机误差 服从三种分布,分别为标准正态分布(,)、自由度为 的 分布()和混合正态分布:(,)(,)。在随机模拟中取样本和维度分别为,和,每种情况模拟 次。为方便比较,将本文提出的非负众数回归 估计记为,已有的最小二乘 估计记为,众数回归 估计记为,非负最小二乘 估计记为,采用广义均方误差 来衡量估计的精度,其定义为:()()()。()同时选择一些指标衡量变量选择的好坏,分别
11、为:正确识别 系数的平均个数(记为);错误识别非 系数的平均个数(记为);正确识别真实模型的比例(记为);真实模型的(记为);惩罚估计的(记为)。模拟结果如表 和表 所示。表 ,下各方法模拟结果()()(,)()(,)()表 ,下各方法模拟结果()()(,)()续表()()(,)()由表 和表 可知:)四种回归方法均具有变量选择的功能。当误差服从(,)正态分布时四种回归方法的变量选择效果相差不大。)当误差服从()或 分布时 明显比其他方法有更小的,而且其 与 差值更小,说明 更能抵御厚尾分布和异常值的影响,这种优势在维度增加时更加明显。)无论中等相关还是强相关 都具有良好的变量选择效果,其正确
12、识别真实模型的比例比其他方法大,说明 能更好地处理强相关变量。综上,的变量选择效果优于其他三种方法,它融合了 与 的优点,不仅满足系数非负的条件,还能更好地抵御异常值和厚尾分布的影响,较好地处理具有多重共线性的数据,适用范围更广。实证研究本节将非负众数回归运用于股指追踪,选取中创 指数及其所有的成分股 年 月 日至 年 月 日的收盘价为数据研究对象,每日选取上午收盘价与下午收盘价,部分缺失的数据用前一天收盘价进行补齐,共有 支股票 个样本,数据来自西南证券金点子财富管理终端。将中创 指数收盘价作为响应变量,支成分股收盘价作为协变量,建立多元线性回归模型,选择数据的前三分之一,即 年 月 日至
13、年 月 日数据(个样本)为训练集,其余为预测集。为了便于比较预测效果,类似太思梦将预测集分为前段预测集(个样本)、中段预测集(个样本)及后段预测集(个样本)。首先检验中创 指数收盘价的分布,为了便于统计分析对数据进行了标准化处理,结合图 可看出中创 指数收盘价存在一些异常值,图 说明中创 指数收盘价不是正态分布,具有高峰厚尾及偏锋的特点,所以运用最小二乘的方法对数据进行拟合会有一定偏差。非负众数回归因能反映数据的集中趋势,能抵御异常值和厚尾分布的影响,有更好的统计效果。图 中创 指数箱线图图 中创 指数条形图及密度图在使用 对 支股票进行选择时,通过 惩罚使结果变得更加稀疏。令惩罚函数的,利用
14、 准则选取合适的 值,最后选出适合的股票来追踪中创 指数的整体趋势。作为对比,同时应用、进行股指追踪,根据训练集建立模型,分别计算前段测试集(),中段测试集()和后段测试集()的误差,即前段预测误差(记为),中段预测误差(记为)和后段预测误差(记为),其表达式为:(),(),()。()其中:为股指追踪的时间;为前段预测集的样本数;为中段预测集的样本数;为后段预测集的样本数;预测误差越小表明追踪效果越好。结果如表 及图 所示:表 四种方法的变量选择结果及分段的预测误差 图 四种方法分段的实际值与预测值走势图表 概括了使用不同变量选择方法得到的股票支数和分段的预测误差,其中,方法经过 惩罚将 支股
15、票压缩仅剩 支。前段预测效果中,表现最好,预测误差仅为,其次,表现最差;中段预测效果中,、预测效果持平,但 的预测误差突然变大到,接近 的四倍;后段预测效果中,预测效果最好,其次但与 相差不大,和 的预测误差突然增大到 和。因为指数追踪是随着时间的推移进行的,时间越靠前追踪效果越精确说明模型追踪能力越强。方法虽然在后段表现较好,但是其在中段的预测误差较大,这会使其后段的追踪变得没有意义。从图 股指追踪预测走势看,虽然 在后段表现不如 方法好,但相比 其在前段和中段时间的预测值与实际值更接近,预测效果更好。综上 无论是从预测误差的角度,还是从追踪的时间长度上来说,都优于其他三种方法。结论本文基于
16、众数回归和非负估计优良的统计性质提出了非负众数回归的变量选择方法,利用 算法、凸差分算法及乘积迭代算法具体阐述了其稀疏的非负系数解法,并讨论了带宽的选择及惩罚参数的选择。通过数值模拟发现非负众数回归不仅满足回归系数非负的条件,还能更好地抵御厚尾分布和异常值的影响。最后将所提方法运用于中创 股指追踪,研究发现此方法能用最少的股票得到最好的预测效果。本文仅从线性模型研究非负众数回归的变量选择,其他模型中非负众数回归的表现有待进一步研究。参考文献:,:,:,:,():,():,:,():,:,:,():,:,():,():杜悦,马学俊成分数据众数回归及其变量选择统计与决策,():太思梦 两类改进 估计在股指追踪中的应用沙坪坝:重庆大学,(,):,:;【责任编辑:王兴全】