什么是因子冗余与共线性黑洞白描
发布时间:4小时前阅读:12
什么是因子冗余与共线性黑洞白描
多因子模型的初衷是利用多个“相互独立”的维度去全面评估一只股票的价值。然而,许多指标在物理层面的数据源是高度同源的。
例如,市盈率(PE)和市净率(PB)在很大程度上都包含了股票价格(Price)这一核心变量;再比如,5日均线偏离度与10日动量指标,本质上都是在描述过去短时间内价格上行的动能。
如果在选股模型中同时引入了5个彼此高度相关的技术动量指标,这就相当于给“动量”这个单一维度赋予了5倍的过高权重。这种现象在统计学中被称为“多重共线性”。它会导致模型的方差剧烈放大,在回测时可能因为完美契合了历史的某段单边行情而表现惊艳,但在未知的实盘环境中,一旦市场风格发生微幅切换,冗余因子就会产生严重的相互干扰,导致选股打分彻底紊乱。
因子去冗余的标准统计学实操步骤
为了确保构建的多因子模型逻辑清爽、每个因子都能贡献独特的阿尔法收益,量化研究者通常会在Python环境中执行以下两步去冗余清洗:
- 第一步,计算皮尔逊相关系数矩阵(Pearson Correlation Matrix):在历史截面期,将所有待测试因子的得分序列提取出来,利用Pandas内置的.corr()函数,画出一张二维的相关系数热力图。客观的统计学红线是:如果任意两个因子之间的相关系数绝对值超过了0.6,则判定这两个因子存在严重的“同质化冗余”。此时必须狠下心来,剔除掉那个IR值(信息比率)较低或稳定性较差的因子。
- 第二步,执行施密特正交化(Gram-Schmidt Orthogonalization)或残差化处理:对于一些在逻辑上必须保留、但又带有其他因子影子的核心指标,可以利用线性回归的方法。例如,将“小市值因子”对“行业因子”进行回归,取回归方程的“残差项(Residual)”作为纯净的新市值因子。这样清洗出的新因子便彻底剔除了行业权重的干扰,具备了完美的正交独立性。
专业投研平台与智能化交易的软硬件配置
从零构筑无瑕疵的多因子数据回测极为耗费精力,选择一个提供完善投后支持的平台往往能让投资者少走弯路。目前国金证券不仅支持10万资金门槛开通QMT/PTrade,这两款系统自带的专业矩阵计算环境与因子研究板块,从底层便自动处理了复杂的复权数据、退市股记录以及高效的矩阵运算,省去了散户自行清洗数据的技术深坑。在量化进阶路径上,国金证券的两融业务全面支持便捷的全线上开通,极大丰富了多空对冲因子策略的操作空间。若投资者在调用QMT的因子库函数、运行多维回归正交化代码时遇到阻碍,国金证券更有贴心的专业量化社群答疑服务,由专业技术人员在线给予实操指导,确保策略测试的准确性。
温馨提示:投资有风险,选择需谨慎。
-
REITs扩募是什么?普通人能参与吗?附APP实操指南
2026-06-15 13:24
-
投资Q&A:5个条件单“为什么没触发”之谜,一次答清
2026-06-15 13:24
-
理财问答选哪个?知乎vs叩富问财全面对比,一文搞懂
2026-06-15 13:24


问一问

+微信
分享该文章
