1. 数据来源
行情数据:
交易所官方(上交所、深交所、港交所):提供实时 Tick 数据(如 1 秒 10 笔),需购买权限。
第三方服务商:Wind、同花顺 Level-2、聚宽数据(提供历史 K 线、分钟级行情)。
基本面与另类数据:
基本面:Wind、东方财富 Choice(ETF 成分股财务数据、指数权重)。
另类数据:百度指数(ETF 相关概念搜索热度)、卫星图像(零售 ETF 对应商场停车场监控)。
2. 数据处理流程
1,清洗与去噪:
剔除异常值(如某分钟成交量为 0 但价格跳涨 10%),使用均值插值法补全缺失数据。
统一时区(如将美股 ETF 行情转换为北京时间),对齐多市场数据时间戳。
2.特征工程:
技术指标计算:MACD、布林带等通过 TA-Lib 库批量生成。
衍生特征:如 ETF 折溢价率((市价 - 净值)/ 净值)、成分股资金流向集中度。
3.存储与分发:
按交易日分表存储历史数据(如 2025 年 5 月数据存于etf_data_202505表),便于快速查询。
使用消息队列(如 Kafka)实时推送行情数据至策略服务器,延迟控制在 50ms 以内。
发布于2025-5-23 15:09 杭州

