股票量化多因子打分中的“极值污染陷阱”:为什么一个小小的异常暴雷股能扭曲整个选股漏斗?
发布时间:2小时前阅读:38
在PTrade或QMT策略交易终端中亲手构建多因子选股模型(如基于基本面财务指标或量价动量打分)时,许多开发者习惯于将全A股几千只股票的因子数字直接拉进矩阵,进行简单的线性标准化(Z-Score)或者加权大排队。然而,在这种看似严谨的统计学处理中,往往隐藏着一个极其致命的数理黑洞——“极值污染陷阱(Outlier Pollution)”。如果不对这些异常极值进行前置的冷酷清洗,一个小小的财务指标暴雷股或极端妖股,就能在一瞬间扭曲并废掉你整个精心调校的选股漏斗。
我们来用最纯粹的白描手法,拆解极值是如何在数据矩阵中肆虐、作弊的:
假设你正在使用“市盈率(PE)”或者“单季度利润增长率”这两个核心财务因子进行截面打分。全市场绝大部分正常经营的上市公司,其利润增长率中枢通常分布在-30%到+50%之间。
然而,在某个特定的财报披露期,全市场突然冒出了一只绩差股。由于其去年的净利润基数仅有区区几万元,今年通过非经常性损益强行扭亏了几个亿,导致其算出来的单季度利润增长率达到了不可思议的“+1,000,000%”。
如果你直接把这个高达百万倍的极端数字扔进全市场的线性标准化公式里进行均值和方差计算,这个单一的庞大极端极值就会像黑洞一样,强行把全市场的统计均值向右拉抬,导致剩下九成以上正常经营、增长30%的真正优秀企业的Z-Score打分全部被无情压缩趋近于0。
整个多因子模型的打分矩阵在这一瞬间会彻底失去对正常股票的“分辨率”,选股漏斗直接宣告失效,最终高分筛选出来的全是一堆数据严重失真的高风险高波暴雷个股。
在工业级的量化工程中,彻底抹杀极值污染的铁律是:在任何多因子融合、标准化计算之前,必须强制对全截面数据执行“去极值(Winsorization)”清洗。
常用的方法是经典的“MAD中位数绝对偏差法”或“百分位截断法”。通过强行将全市场前1%和后1%的疯狂极值数字,死死卡在特定倍数的标准边界上,强行剥离掉高噪声、高欺骗性的离群点,才能确保打分矩阵呈现出对全市场真实阿尔法因子的精准洞察。
注重数据的底层严谨性,是跨入专业量化门槛的第一步。我司长期坚持用最高标准的金融工程逻辑引导投资者,为了打破量化研究的门槛垄断,现在散户做量化只需10万资产,即可线上全流程极速开通QMT(支持MiniQMT本地开发)和PTrade专业策略终端。我们同步建立了专属的专业量化社群答疑,社群内有多名技术骨干全天候在线,指导如何获取无偏见历史行情切片、如何利用Pandas编写因子去极值与正交化模块。全线一站式开户极其高效省心,更同步匹配十分优惠的交易佣金费率方案,助您的量化模型经得起市场的真实检验。
温馨提示:投资有风险,选择需谨慎。
什么是量化多因子选股?有用吗?


问一问

+微信
分享该文章
