基本面-逻辑回归交易策略:以甲醇为例
发布时间:2023-11-2 17:17阅读:56
【20231102】【专题】基本面-逻辑回归交易策略:以甲醇为例
摘要
甲醇是一种重要的化工品,上游原料主要是煤炭,下游产品包括烯烃等化工品和车用燃料。甲醇产能相对过剩,对上游成本具有良好的弹性;与原油在烯烃生产上具有替代效应,二者价格具有联动性。甲醇的化学特性使其具有较高的仓储和运输成本,库存对其价格影响明显。
单因子构建。选择供应、需求和价格端的多个基本面指标,根据其环比变化方向与价格驱动逻辑,发出持仓信号。通过回测绩效表现与净值曲线,选定库存、基差、原油价格和盘面利润四个指标,构建单因子。
基本面择时。库存和基差单因子表现较好,前者回撤为15.96%,后者夏普比率达1.06。四因子投票策略绩效接近于单因子的平均水平,夏普比率达1.22,年化波动和最大回撤(14.16%)明显降低,但未能提升预测准确率和交易胜率。
逻辑回归模型。以基本面指标的一阶差分和投票策略的持仓信号作为模型输入特征。模型估计系数的正负性与基本面驱动逻辑一致,认为模型成功纳入专家经验。相比单因子,模型提升了涨跌预测准确率和交易胜率,夏普比率和最大回撤率分别为1.66和8.9%。从分时表现来看,模型表现优于单因子和投票策略,每年均有正收益,实现了多因子1+1>2的效果。
风险提示:宏观事件冲击、过拟合等。
关键字:甲醇,库存-利润-升贴水,WTI原油价格,逻辑回归分类器
1.甲醇品种简介
1.1.产业链结构
甲醇是一种重要的化工原料,上游包括煤炭、天然气和焦炉气,其中煤制甲醇占比达到77%;下游需求分散在甲醛、醋酸、MTBE、二甲醚、DMFI和有机硅等一系列化工产品的生产中,且作为优秀的能源和可替代汽油的车用燃料。
图 1甲醇产业链结构
数据来源:紫金天风期货研究所
1.2.价格影响因素
从基本面分析,甲醇期货价格驱动来自原油价格、库存、基差、成本和进出口利润等多个方面。其中,原油和甲醇在共同下游产品烯烃的生产中具有替代效应,导致了二者价格的正相关性:当原油价格升高,生产商倾向于使用甲醇作为原料,推升后者价格;反之亦然。此外,甲醇下游产业链与原油期货间套利行为的增多,也强化了甲醇与原油间的价格传导路径。下图显示郑商所甲醇期货与WTI原油价格走势的高度相关性。
图 2甲醇价格与原油价格联动性
数据来源:Wind,紫金天风期货研究所
甲醇的品种特性使其仓储和运输必须依托专业的仓库和槽车,且受限于各地区的运力和产销情况,使得甲醇价格与库存水平呈现显著的负相关性。
图 3港口库存与甲醇价格负相关性
数据来源:Wind,紫金天风期货研究所
近年来,甲醇成本端的煤炭价格波动增大,也为其盘面价格提供有力支撑。作为产能相对过剩的能化品种,甲醇价格相对其成本端价格的弹性也较好。故我们考虑甲醇生产利润即盘面价格与成本之差,作为对当前商品价值的公允计量,当利润超过合理水平,预期期货价格下跌;反之,预期期货价格上涨。
图 4利润与甲醇价格负相关性
数据来源:Wind,紫金天风期货研究所
从现货与期货价格的联动性分析,我们认为基差与期货价格同向变动,即现货价格高于期货价格时,预期向上收基差,反之,向下收基差。此外,甲醇价格也受到宏观经济发展、产业链相关政策、和天气等的影响。
2.逻辑回归分类器
2.1.基于甲醇基本面分析框架的特征构建
从甲醇基本面分析框架出发,我们考察其供应端的国内甲醇开工率、进口量和港口库存,需求端的烯烃等下游产品开工率,以及基差、原油价格和利润等多个可量化指标,根据各指标的环比变化方向和驱动逻辑分别构建单因子进行择时交易。依据各单因子的夏普比率、回撤和净值曲线等筛选出港口库存、基差、WTI原油价格和煤制甲醇利润四个相对有效的基本面指标。
图 5甲醇期货价格的基本面驱动框架
数据来源:紫金天风期货研究所
根据四个指标值的一阶差分构建特征,本文还以四因子投票策略产生的持仓信号作为第5个模型输入特征。
2.2.逻辑回归模型表示与求解
逻辑回归算法解决二分类问题,首先对于包含m个样本、n个特征的变量矩阵Xm×n进行回归得到实数向量ym×1∈Rm;然后通过sigmoid函数将y映射至(0,1)区间,即转换为概率值向量p;最终依据阈值(0.5)对预测概率值进行分类,即预测概率值高于0.5(p=sigmoid(y)>0.5)的样本划为正类,否则(p=sigmoid(y)≤0.5)划为负类。
在本文中,我们选取了库存、基差、原油价格和煤制甲醇利润构建特征X,以期对甲醇价格的涨跌方向y进行预测。为进行二分类,我们将价格变动>0的样本视为“涨”,价格变动≤0的样本视为“跌”。划分为“涨”和“跌”的样本个数分别为1143和1123,可将我们的样本总体视为无偏的。
基于四个基本面指标环比变化分别构建的驱动因子也可视为弱分类器,即依据基本面的环比变化(增、减)对后一期的期货价格变化(涨、跌)做出预测。本文计算四个指标的一阶差分作为模型的输入X,相比单因子分类器,X包含基本面变动的方向和绝对值两方面的信息。
首先估计线性回归模型y=XW+b,其中W为n维列向量,包含对应各特征(基本面指标)的估计系数;b为标量,是线性回归的截距项。为了充分提高模型表现,特征矩阵X除包含上述基本面指标本身的环比变化外,还纳入了四因子投票策略生成的持仓信号。
模型对库存、基差、WTI原油价格和煤制甲醇利润环比变化的系数估计值分别为-0.0029,0.005,0.0253和-0.0006,投票策略信号的系数估计值为0.1057。由此可见,基本面指标系数的正负性与其驱动交易逻辑的方向一致,初步验证了模型的有效性。
接下来,通过sigmoid函数获得对样本涨跌概率的估计值
其中e为自然常数。由下图,sigmoid函数单调递增,在y趋向于-∞时,取值接近于0;在y趋向于+∞时,取值接近于1,具有与概率分布函数非常接近的性质。此外,p0=f(0)=0.5,因此我们对线性回归中y估计值为负的样本做出“跌”的预期,对y估计值为正的样本作出“涨”的预期。
图 6从基本面线性回归到涨跌分类概率的映射
数据来源:紫金天风期货研究所
为减轻过拟合风险,我们将全部样本(共2266条数据,即n=2266)按照7:3的比例划分为训练集和预测集。我们的训练集和测试集的预测准确率分别为56.12%和52.94%,相差在3.5%以内,模型具有一定泛化能力1。
1 如上所述,我们的样本是无偏的,训练集和预测集的f1分数分别为55.80%和59.06%。
2.3.1+1>2
我们的逻辑回归模型纳入了四个基本面指标,并期望得到1+1>2的效果。下图给出两组特征下的样本点分布,红色和绿色分别标记该样本的实际涨/跌情况。显然,对于任意一组特征,我们很难找到任意一个线性或非线性的决策边界较好地分离红色和绿色(涨、跌)样本点。这表明了我们应用更多特征进行多元线性回归的必要性,即从三维及以上的特征空间中寻找更优的决策边界。
图 7基于库存-基差和原油价格-基差两组特征的样本空间
数据来源:紫金天风期货研究所
下图考察模型容纳特征数为1-5时的精度与最终策略绩效表现,为方便比较,额外添加绿色和红色水平线分别表示50%的准确率水平2和四因子投票的夏普比率(1.22)。总体来看,训练集精度和策略夏普比率随着特征个数的增加而上升。当特征个数由2增至3时,即添加WTI原油价格环比变化时,模型性能提升明显,训练集准确率达到53.68%,相应策略的夏普比率超过四因子投票策略。
图 8包含不同特征个数的模型表现
数据来源:紫金天风期货研究所
值得注意的是,我们将四因子投票策略信号作为最后一个特征添加至模型中,特征个数由4至5时,训练集和测试集精度都有提升,这将带来最终策略胜率的提升。
2 本文选择50%的准确率作为基准,因为涨、跌样本个数比较接近,我们认为随机预测涨跌的正确概率为50%。
3.逻辑回归能否提升基本面驱动交易表现?
3.1.基本面因子绩效
本文延续以往报告中所采用的库存-基差-利润三因子择时框架,考虑到原油和甲醇在烯烃生产中的替代效应,添加WTI原油价格环比变化作为第四个基本面因子。其中库存和生产利润是负向指标,基差和原油价格是正向指标,根据基本面指标的环比变化方向发出持仓信号。
下图给出各单因子的绩效表现,回测期间由2014年6月至2023年9月。由于基本面数据取得的滞后性,持仓信号于下一期开盘进行交易。交易标的为郑商所甲醇期货主力合约,初始资金为20000元,多空仓位1手。
表 1基本面单/多因子择时绩效表现
数据来源:紫金天风期货研究所
基差因子的预测准确率、胜率和夏普比率最高,顺基差交易是多因子择时策略的主要收益来源。利润和库存因子的预测准确率仅次于基差因子,交易胜率比基差因子分别低7.81%和5.31%。从年化收益率来看,库存和利润因子分别比基差因子低6.93%和28.56%,虽预测准确率相差不大,但利润因子对重大价格行情的把握能力明显低于库存和基差因子,即利润对价格的(独立)驱动作用相对偏弱。此外,库存因子的表现相对最为稳健,最大回撤在16%以内,且盈亏比也超过1.3。
值得注意的是,原油因子的预测准确率最低,仅略高于50%,年化收益、夏普比率和最大回撤也仅略优于利润因子。然而,根据2.4节中的探讨,原油因子的引入明显提升逻辑回归模型的预测准确率和相应策略的夏普比率,利润因子也有类似表现,故多因子机器学习模型能够起到1+1>2的效果。
总体来看,预测准确率和胜率正相关,即预测准确率更高的模型实质上通过提高交易胜率来提升策略绩效。相比基差因子,四因子投票策略并未提升准确率和胜率,但收益波动率和最大回撤改善,从而提高夏普比率和卡玛比率。
以下展示四因子择时策略的净值曲线和分年的夏普比率,四因子投票策略收益率略低于基差单因子,但明显更为平缓。基差因子在2018年出现大幅回撤,同期甲醇价格行情主要由库存和煤炭成本驱动。原油价格和利润因子分别在2016-2019年和2014-2017年显示负收益,但近三年收益表现较好,表明二者与甲醇期货价格关联性增强。
图 9基本面多因子择时净值曲线
表 2基本面单/多因子择时分年夏普比率
数据来源:紫金天风期货研究所
总体来看,四因子投票模型绩效可以视为单因子的平均,在不同年份表现也相对较好,除2017和2020年外均取得0.5以上的夏普比率。
3.2.基本面-逻辑回归策略绩效
本节以四因子投票策略与库存、基差单因子绩效作为比较基准,探讨逻辑回归算法带来的提升。逻辑回归模型准确率和胜率均高于基差因子,这与四因子投票模型仅对单因子表现做平均显著不同。
基于逻辑回归分类器的策略胜率提高直接体现在年化收益率和最大回撤上,相比基差单因子和四因子投票策略,年化收益高出接近20%,最大回撤降低超过5%。因此,相比我们以往工作采用的多因子择时框架,根据基本面一阶差分构建的线性回归模型能更好刻画期货价格变化规律。
表 3引入逻辑回归分类器的择时绩效提升
数据来源:紫金天风期货研究所
以下报告逻辑回归算法的分年夏普比率和净值曲线。显然,其在不同区间内的收益表现均优于单因子和多因子投票策略。即便是在2017年,三个单因子和投票策略均显示亏损,基于逻辑回归的策略仍有1.37的夏普比率;后者仅在2018、2019和2023年夏普比率略低于投票策略。
表 4基本面-逻辑回归策略的分年夏普比率
图 10基本面-逻辑回归策略净值曲线
数据来源:紫金天风期货研究所
总结
本文基于库存、利润、升贴水和原油价格的指标对郑商所甲醇品种构建基本面择时策略。在单因子和多因子投票策略上,我们遵循以往报告的做法,根据指标环比变化和驱动逻辑生成持仓信号。回测结果显示,库存和基差对于甲醇期货价格的驱动作用强烈,四因子投票不能提升预测准确率和交易胜率,仅能平滑收益波动、降低回撤。
逻辑回归模型纳入四个基本面指标的一阶差分和投票信号,同时提高预测准确率和交易胜率,显著改善策略夏普比率和回撤。相比其他常见分类器,逻辑回归具有解释性,且充分利用了专家经验:线性回归部分的估计系数符合相应特征的基本面驱动逻辑。模型训练集和测试集的预测准确率相差在3.5%以内,过拟合风险在一定程度上得到控制。
未来的工作中,我们考虑将这一结合逻辑回归分类器的多因子择时框架应用在其他能化品种的主观量化策略开发中,充分发掘并量化期货价格随基本面指标的变动规律,也为主观分析提供新的视角。从提升预测准确率角度,我们考虑:
1)引入新的基本面指标,采用一阶差分以外的方式构建特征;
2)应用集成学习模型,综合多个分类器,以求提升准确率的同时进一步减轻过拟合。
联系人:闻天歌
从业资格证号:F03108581


温馨提示:投资有风险,选择需谨慎。
-
小米玄戒O1芯片发布,小米股票终回暖!自研芯片能否成为破局关键?
2025-05-26 10:32
-
2025年端午节假期享收益,赶紧码住这份攻略!
2025-05-26 10:32
-
打新预告来啦!来看看这两支新股潜力如何~
2025-05-26 10:32