基于机器学习的股指期货周频跨期套利策略构建
发布时间:2022-10-10 17:09阅读:1300
2022年9月30日
★ 策略构建思路
我们选用两合约多空跨期组合的收益率作为目标变量,从A股市场风险收益、套保需求、合约成交持仓情况、基差价差、跨期组合特征五个方面选取特征,使用OLS、XGBoost、随机森林算法分别建立了预测模型,每周在收益率预测绝对值最高组合中的两个合约上建仓,由此构建了周度调仓的跨期套利策略。
★ 策略回测结果
预测模型对于不同的输入变量以及不同的参数取值均表现出了较好的稳健性。机器学习集成算法的预测效果显著优于普通线性回归,预测R方与策略收益均是机器学习算法占优,其中随机森林的预测效果最好。我们认为跨期组合特征与价差之间具有非线性的相关关系,使得树模型的表现在此场景中优于普通线性模型。
不加杠杆、不考虑交易冲击成本的情况下,中证500股指期货跨期套利策略年化收益7.39%,年化波动1.84%,最大回撤1.05%,收益风险比4.02,收益回撤比7.03,换手率年均79倍。由于不同品种的波动差异,IC、IF、IH上的跨期套利策略收益空间依次递减。沪深300股指期货跨期套利策略年化收益4.63%,收益风险比3.25;上证50股指期货跨期套利策略年化收益3.92%,收益风险比2.88。
由于策略换手率较高,测试了策略对交易成本的敏感性:IC、IF、IH单边交易冲击成本分别达到约6bp、4bp、3bp时,策略的收益风险比将降至1以下。
★ 策略应用展望
本文构建的跨期套利策略一方面适合追求绝对收益、交易冲击成本较低的小规模资金,策略风险较小;另一方面跨期信号对套保持仓的展期也有一定指导意义。
★ 风险提示
模型基于历史数据构建,未来市场风格的变动可能导致现有模型不适用。
1
研究背景
跨期套利是基于对不同合约间价差的预测,在不同合约上建立方向相反、数量相当的头寸,获取合约间价差变化的收益。跨期套利策略的经典思路为统计套利与无风险套利,即在价差偏离正常区间或无风险套利区间时,给出套利信号。但是我国的股指期货合约间价差受到较多外生变量影响,仅依靠价差的历史数据进行统计套利效果较差;另外融券做空成本较高,期现套利机制不完善,无风险套利区间的上下界难以界定,也限制了无风险套利策略的发挥。
结合我国股指期货当前的市场环境与行情,股指期货低频的中长周期跨期套利仍有一定的盈利空间。我们回归到跨期套利的本质,基于对价差的预测构建低频的跨期套利策略,对交易成本的容忍度更高,同时对展期策略也有一定的参考价值。
2
目标变量设定与策略构建思路
股指期货同时存续的4个合约构成6组价差,为了确保预测目标与策略构建的一致性,我们选用两合约多空跨期组合未来个交易日的年化收益率作为预测的目标变量:
设定不同的目标变量收益率的计算周期,取k=5、10、20,将跨期组合未来5日、10日、20日的收益率作为预测的目标变量;收益率预测窗口长度与最终落实到策略的调仓周期则是相互独立的,比如可以根据未来5日收益率的预测结果进行日度的调仓,也可以根据未来20日收益率的预测结果进行周度的调仓。
预测模型方面,选取OLS、XGBoost、随机森林(Random Forest)三种模型进行训练与预测,三种算法分别在各自的算法类别中具有较强的代表性:OLS作为线性模型的代表;XGBoost与随机森林则分别是基于非线性的学习器的两种典型集成学习方法的代表。集成学习方法有两大类典型算法,一是个体学习器间存在强依赖关系、串行训练一系列分类器的的Boosting方法,XGBoost算法是Boosting中比较典型和高效的算法;二是个体学习器之间不存在强依赖关系、通过自助采样同时训练多个分类器的Bagging方法,随机森林则是Bagging方法中的典型算法。
3
跨期组合收益率的统计分布特征
建立预测模型对目标变量分布的稳定性有一定的要求,因此首先考察目标变量的分布情况。对于一个定价较为充分的期货市场,到期期限不同的合约间价差应当服从均值为0的正态分布;从历史数据看,我国的股指期货定价经历了从不充分到较为充分的发展历程。
时序维度上看,2015年至今股指期货的基差价差分布发生了巨大变化:2015-2016年股指期货上市初期遭遇股灾限仓,期指定价极不充分,跨期组合的收益率分布十分分散,甚至无法形成正态分布;2016年后随着股指期货的逐渐松绑,股指期货的定价效率逐渐提高,跨期组合的收益率分布也逐渐向正态分布靠拢,分布形状的尾部有越来越薄的趋势,代表着套利收益空间在逐步缩减。可以看到2015-2016年目标变量的分布特征与2017年后的分布特征有显著差异,因此设定训练样本的起始时间从2017年开始。2017年后的收益率分布特征较为一致,这也为我们建模预测奠定了基础。
截面维度上看,合约间的到期期限相差越大,则价差以及价差的波动越大,跨期组合收益率的分布也就越平坦,尾部越厚,代表着套利收益空间会随着合约到期月份之差的增加而增加。这也启发我们在后续的建模中,有必要将合约到期月份之差作为一个特征,用以区分到期月份差异不同的跨期组合。
除此之外,在合约交割日当天,由于收盘价会向合约结算价靠拢,收盘基差与价差容易大幅偏离正常水平,为了防止异常值影响模型的稳健性,涉及交割日收盘价的数据做了删除处理。
4
特征选取
在之前的专题报告中我们总结了股指期货基差分析的三因子框架,探讨了股指期货基差期限结构的特点,得到了股指期货的基差与价差变化具有一致性的结论,因此在选取特征时,我们参考基差的影响因素,并额外加入了跨期组合特有的特征,构成预测跨期组合收益率的因子池。预测跨期组合收益率所选特征可以分成五大类:A股市场风险收益特征、套保需求、合约成交持仓情况、合约基差与价差、跨期组合特征。
4.1、A股市场风险收益特征
A股市场的短期以及长期风险收益特征对股指期货基差价差均有显著影响。短期来看,当A股市场波动较大,特别是超预期事件驱动宽基指数出现大涨和大跌时,股指期货上的投机力量往往会突然增加,具体体现为合约的成交持仓比攀升,此时不再是套保移仓换月而是投机交易更易驱动基差价差变化。
长期来看,A股市场的风险收益特征也会影响到Alpha收益、中性策略收益、CTA策略收益,进而影响到股指期货的套保、投机以及套利收益,间接地对股指期货的基差价差产生影响。
最终我们从收益、波动、换手率、市场风格四个方面选取了衡量A股市场风险收益特征的变量,如表3所示。收益方面,选取期货标的指数的收盘价、收益率数据和全A指数的收盘价与收益率数据;波动方面,选取期货标的指数的历史波动率,以及指数成分股收益率的横截面标准差(成分股收益率之差可以表征潜在的Alpha收益空间);换手率方面,选取了全A指数的换手率与期货标的指数的换手率指标;市场风格方面,选取了主要宽基指数之间的收益率之差、收益率之差的波动率以及换手率的比值。
4.2、套保需求
Alpha收益会影响到中性策略的表现,进而影响到中性策略的规模,最终影响到中性策略产品的股指期货空头持仓规模。与直觉相悖的是,当市场持续下跌时,股指期货的空头套保力量并不会增加,基差有时反而有收敛趋势,这是由于中性策略贡献了股指期货主要的空头持仓,市场下跌时Alpha策略往往也表现不佳,导致中性策略规模的萎缩,反而会导致股指期货的空头套保需求降低。因此选取A股市场Alpha收益、中性策略收益、中性策略规模相关的指标作为预测变量是有必要的。具体选取指标时,一方面选取了公募与私募的指数增强基金相对于跟踪指数的超额收益表征Alpha收益情况,另一方面选取了公募与私募的中性策略产品的收益、规模与数量相关的指标。另外ETF的规模、资金流入、融券余额等指标也与市场套保需求相关,也纳入了特征筛选中。
4.3、合约成交持仓情况
成交持仓数据能够反映股指期货的交易结构,进而对股指期货的基差价差有一定的预测能力,因此选取了会员持仓多空净头寸、品种总持仓、品种总成交、成交持仓的环比变化、成交持仓比、期现成交比等指标纳入特征筛选。会员持仓多空净头寸能够反映主要会员的多空强弱力量,该值下降往往对应着空头套保需求的增加;持仓量与成交量的变化可以反映多空分歧程度、市场投机情绪等,对股指期货基差价差产生间接影响;成交持仓比与期现成交比可以反映期货品种的投机力量强弱,A股波动率的增加往往伴随着成交持仓比的攀升。
4.4、基差价差
股指期货的基差与价差走势也呈现一定的趋势与反转特征,短期内价差波动较大或处于历史极端值,往往很快会迎来反转;中长期内基差与价差走势则有一定的趋势性。结合我们对基差价差变化规律的观察,选取了剔除分红的年化基差率、跨期升贴水率、百分位数以及基差期限结构相关指标纳入特征筛选。
4.5、跨期组合特征
我们的目标变量是具体到2个合约的收益率差,两个具体合约的量价指标会对价差产生影响:
(1)合约流动性的差异会对价差产生影响,我们用两合约成交量、持仓量、成交持仓比的比值或差值来衡量这种差异;
(2)合约距离到期日的天数会对价差产生影响,合约临近到期时基差会加速收敛,倘若远期合约不跟随收敛,则价差会有所变化,我们用两合约距离到期日天数来衡量这种影响;
(3)价差的变化有一定的季节性特征,我们计算了跨期组合两合约对应月份、对应到期期限历史同期未来收益率的均值,用来表征跨期价差的季节性规律;
(4)前文我们也提到了,两合约之间的到期期限相差越大,价差的波动往往越大,我们用两合约之间到期月份之差来衡量这种差异的影响。
4.6、特征的进一步筛选与降维
从上述五个可能对价差有影响的方面出发,叠加单个指标可以有不同的参数,我们初步得到了200多个特征,有必要做进一步的筛选处理。我们希望用于预测的特征既与目标变量有较强的相关性,也能从逻辑上有一定的经济含义,所以我们首先结合单变量与目标变量的相关性做了初步的手动筛选,筛选的标准为:首先对于有多个计算参数的变量,保留与目标变量相关性最强的参数,或分别保留一个较小与一个较大参数;对于同一类别内部相关性较高的变量,仅保留主观上有意义的或者与目标变量相关性较强的变量;每个细分类别需要留下至少一个变量。手动筛选后保留了约70个左右的特征。
随后我们使用层次聚类对这70多个特征做进一步的降维处理。具体算法我们使用了自底而上的层次聚类法(Agglomerative):初始每个变量自成一类,首先计算类两两之间的距离,按照距离最短或者损失最小的原则进行合并,然后计算新的类与未合并的类的距离,并反复迭代这一过程。类间距离可以有不同的计算方法,这里我们使用Ward法作为合并类的准则,与直接计算类间距离有一些区别,Ward法定义了ESS(Error Sum of Squares)作为衡量信息损失的准则,每次合并的标准是,使得新合并后新类的ESS之和相较于合并前的ESS之和的增长最小。其中类的ESS的计算公式为:
根据聚类的过程信息,我们可以指定最终想要得到的类的数目,然后在每一类中选择与目标变量相关性最高的变量,实现最终的降维。
5
模型建立与策略回测结果
5.1、数据预处理
我们对所有特征重点做了降维、标准化和滞后处理。第4章节中我们已经通过聚类完成了特征的降维,在进行拟合之前,我们统一对所有特征做了zscore标准化处理,测试集使用训练集的均值与方差进行标准化;对于日度指标全部做滞后一期处理,确保我们在交易日当天用于预测的变量在上一交易日收盘后是可以拿到的;对于公募以及私募产品的数据,全部根据数据公布时间做了滞后处理。
5.2、训练集与样本集的划分
本文采用重叠滚动窗口的方式划分训练集与测试集,在每个交易日,使用过去X个交易日的数据训练模型,然后使用当日可得数据预测每一组跨期组合未来K个交易日的收益率,于是我们在每个交易日都可以得到每一个跨期组合未来收益率的预测值。这里X我们尝试取值125、250、375与500,分别对应使用半年、一年、一年半、两年的数据样本作为训练集;K我们这里取5、10、20,分别对应将未来约1周、2周和1个月的收益率作为目标变量。在后续的调参和滚动预测中我们使用同样的样本划分方法。
5.3、模型设定与参数敏感性测试
使用OLS、XGBoost与随机森林建立价差组合收益率的预测模型。模型训练中的损失函数以及预测效果评价均使用均方误差。进行预测之前,我们按照上节所述样本划分方法对XGBoost和随机森林模型进行了调参。
我们根据得到的跨期组合未来5日、10日、20日收益率的预测结果分别构建日度、周度以及月度调仓的跨期套利策略,比较不同模型与不同参数下的策略效果。下面还是先以中证500股指期货为例展示回测结果。
对于跨期套利策略而言,日度调仓的换手率过高,月度调仓容易错过一些交易机会,因此我们优先考察周度调仓下的策略结果。图表11-14展示了不同模型以及不同参数下的跨期套利策略回测结果,模型对于不同的输入变量以及不同的参数取值均表现出了较好的稳健性:
比较不同模型的预测效果,机器学习集成算法显著优于普通线性回归,预测R方与策略收益均是机器学习算法占优,其中随机森林的预测效果是最好的;
比较不同参数下的回测结果,首先模型对滚动窗口长度不敏感,使用过去半年至2年的数据作为训练集对结果影响不大,因此可以折中选择一年长度的滚动窗口;模型对于输入的特征表现出了较好的稳健性,但是可以发现输入的特征数量较多时模型表现较优;我们也尝试使用了5日、10日、20日收益率预测结果指导周度调仓,结果发现使用20日收益率预测值的策略表现不理想,根据5日、10日收益率的预测值调仓表现较好;最后测试了策略对于调仓时点的稳健性,结果显示周一至周五调仓下策略均有显著收益,周一和周五调仓策略表现略差,周二至周四调仓策略表现较好,可能与周五周一涉及交割与新合约上市有关。
综合以上参数敏感性测试结果,通过聚类选择60个特征作为模型输入,使用随机森林预测跨期组合未来5日收益率,滚动使用过去一年的样本作为训练集拟合模型,并在每周三调仓,可以构建表现较优的股指期货跨期套利策略,不加杠杆、不考虑交易冲击成本的情况下,2018年以来中证500股指期货跨期收益率预测样本外R方39.7%,据此构建的跨期套利策略年化收益7.39%,年化波动1.84%,最大回撤1.05%,收益风险比4.02,收益回撤比7.03,换手率年均79倍。
5.4、特征重要性解释
我们保持上节末的参数设定,模型及策略参数设定如下:
上节我们看到机器学习模型表现出了显著优于线性模型的预测效果,于是我们分别列举了2022年OLS、XGBoost、RForest模型拟合中重要性排名前10的特征,尝试分析其中的原因。
可以看到OLS的重要特征与XGB、RF有显著的不同。机器学习模型排名前10的特征中,跨期组合特征相关的变量占比较高,包括季节性、近月合约距离到期日的天数、近远月合约持仓比值等,另外跨期价差率的重要性排名也比较靠前,这与我们对跨期套利机会的主观判断高度一致;而跨期组合特征相关的变量几乎没有出现在OLS重要性排名前10的特征列表中。直觉上我们认为跨期组合特征相关的变量对于预测价差来说是很重要的,但是跨期组合特征相关的变量确实更适合用来“分类”而不是“线性外推”,因此跨期组合特征相关变量与跨期收益率的线性相关性也不会特别高,树模型表现出了更好的预测性能便也可以理解了。
除了特征在不同模型中的重要性差异,我们也关心不同时间段重要特征的差异。图表17列举了2018年以来每年随机森林模型重要性排名前10的特征,可以看到不同年份的重要特征确实有一些差异。跨期价差率的历史数据与百分位数对于价差预测来说一直比较重要,比较符合我们的主观直觉;2019年开始私募基金发展比较迅速,私募中性策略相关变量也从2019年开始重要性有所提升;2021年开始受场外衍生品影响,IC的基差与指数呈现出较明显的负相关,规律与往年有所差异,可以看到指数与当季合约基差的相关性变量重要性在2021年有所提升。
5.5、交易冲击成本影响
依然使用上节的回测参数,我们将该策略拓展至沪深300股指期货与上证50股指期货,也取得了较好的收益。沪深300股指期货跨期套利策略年化收益4.63%,最大回撤-0.76%,收益风险比3.25,收益回撤比6.06,换手率年均83倍;上证50股指期货跨期套利策略年化收益3.92%,最大回撤-0.74%,收益风险比2.88,收益回撤比5.29,换手率年均86倍。
中证500股指期货是波动最大、成交最活跃的品种,价差的更高波动带来了跨期套利策略的更高收益,从IC、IF至IH,跨期套利策略的收益空间逐次递减。我们注意到即使是周度换仓,策略的换手率也非常高,下面我们调高手续费,测试策略对交易成本的容忍度。IC、IF、IH对交易成本的容忍度分别大约为6bp、4bp、3bp,超出这个成本策略夏普比将小于1。
6
策略应用展望
本文创新性的运用机器学习集成算法构建了股指期货跨期组合收益率的预测模型,跨期组合特征与价差之间的非线性相关,使得机器学习构建的跨期套利策略显著优于普通的线性模型。周度换仓的跨期套利策略换手率依然较高,适合追求绝对收益、交易冲击成本较小的小规模资金运用,策略风险较小;另外对跨期信号对套保持仓的展期也有一定指导意义。
7
风险提示
模型基于历史数据构建,未来市场风格的变动可能导致现有模型不适用。


温馨提示:投资有风险,选择需谨慎。
-
小米玄戒O1芯片发布,小米股票终回暖!自研芯片能否成为破局关键?
2025-05-26 10:32
-
2025年端午节假期享收益,赶紧码住这份攻略!
2025-05-26 10:32
-
打新预告来啦!来看看这两支新股潜力如何~
2025-05-26 10:32