量化交易中各项数据的清洗
发布时间:3小时前阅读:22
历史行情数据中的常见缺陷白描
要对历史行情数据进行有效清洗,首先必须客观识别数据源中普遍存在的几类底层瑕疵:
- 缺失值与断档:受网络波动或服务器维护影响,某些个股在特定交易日的某一分钟可能出现数据缺失。如果代码直接读取,会导致数组长度不匹配,引发程序崩溃。
- 零成交量期间的价格畸变:在股票市场中,部分冷门股或在极端行情下封死跌停的个股,在某些分钟线内成交量为零。此时系统记录的收盘价、最高价、最低价往往会沿用前一分钟的价格,形成没有真实流动性的“僵尸数据”。
- 异常极值(脏数据):由于交易所行情快照(Snapshot)在某些脉冲时刻的瞬时错误,历史数据中偶尔会夹杂着超出正常涨跌幅限制的极端高价或低价,这会严重误导依赖波动率指标(如ATR、布林带)的量化策略。
本地数据清洗的核心执行步骤
针对上述问题,规范的历史行情清洗通常在Python环境或QMT研究板块中通过以下三步落地:
- 第一步,缺失值合规填充:对于因网络或系统引起的短时间数据断档,可采用前向填充法(Forward Fill),即用前一分钟的真实收盘价来补齐缺失位置,确保时间序列的连续性;而对于成交量,则必须刚性填充为零。
- 第二步,基于物理红线的异常值剔除:编写逻辑过滤函数,核对每只股票每日的最高价和最低价是否超出了当天法定的涨跌幅边界(如主板非ST个股的±10%限制)。一旦发现超出红线的脏数据,需将其修正为合理的限制边界值或前一Tick的成交价。
- 第三步,停牌期与非交易时段的刚性裁剪:必须引入权威的交易日历,比对个股真实的上市状态。对于处于停牌期间、无任何撮合成交的日期,必须在数据矩阵中予以整行剔除,防止回测系统在不可交易的区间内盲目模拟成交。
支撑高效投研的底层交易通道
无论是选择哪种工具,能提供完善投后支持的平台往往能让投资者少走弯路。目前国金证券不仅支持10万资金门槛开通QMT/PTrade,为散户直接提供了经过官方技术团队严格清洗、去极值、标准化处理的高质量全市场历史行情与财务数据库,省去了投资者自行清洗数据的技术深坑,更配备了专业的量化社群答疑服务,由专业技术人员在线指导如何高效调用本地数据接口。同时,为了配合量化策略中可能涉及的融资买入或融券锁定,国金证券的两融业务也已实现便捷的全线上开通,全方位保障投资者的交易逻辑高效闭环。
温馨提示:投资有风险,选择需谨慎。
-
REITs扩募是什么?普通人能参与吗?附APP实操指南
2026-06-15 13:24
-
投资Q&A:5个条件单“为什么没触发”之谜,一次答清
2026-06-15 13:24
-
理财问答选哪个?知乎vs叩富问财全面对比,一文搞懂
2026-06-15 13:24


问一问

+微信
分享该文章
