1. 算法选择
传统机器学习:
回归模型:随机森林(Random Forest)、梯度提升树(XGBoost/LightGBM),处理非线性关系。
分类模型:支持向量机(SVM),用于预测涨跌方向(如二分类:涨 / 跌)。
深度学习:
时间序列模型:LSTM/GRU 神经网络,捕捉价格序列的时序依赖与长期记忆。
图神经网络(GNN):建模股票与行业、宏观因子的关联网络,分析交叉影响。
Transformer 模型:处理非结构化数据(如新闻、研报),提取事件驱动特征。
2. 特征工程
时序特征:滞后价格、移动平均、波动率序列。
截面特征:行业排名、市值分位数、机构持股比例。
事件特征:将重大事件(如财报发布)编码为虚拟变量,输入模型。
3. 模型优化
过拟合控制:使用 dropout、早停(Early Stopping)、正则化(L1/L2)避免模型在训练集上过拟合。
集成学习:组合多个基模型(如 LSTM + 随机森林),通过投票或加权平均提升预测稳定性。
在线学习:采用增量学习(Incremental Learning),实时更新模型参数,适应市场结构变化。
4. 局限性
机器学习模型常被视为 “黑箱”,需通过SHAP 值、LIME等工具解释特征重要性,避免依赖无经济意义的噪声特征。
对小样本(如新兴市场股票)预测效果较差,需结合迁移学习(Transfer Learning)利用成熟市场数据。
发布于2025-5-22 01:45 武汉

