适用于台湾股市板块轮动的量子强化学习交易代理
该研究团队提出了一种用于台湾股市板块轮动策略的混合量子-经典强化学习框架。该系统以近端策略优化(PPO)为核心算法,整合了经典架构(LSTM、Transformer)与量子增强模型(QNN、QRWKV、QASA)作为策略和价值网络。通过自动化特征工程管道从股本数据中提取金融指标,确保所有模型配置的输入一致性。 实证回测揭示关键发现:尽管量子增强模型在训练奖励上持续优于经典模型,但在实际投资指标(如累计收益率和夏普比率)中表现不佳。这种差异凸显了强化学习在金融领域应用的核心挑战——代理奖励信号与真实投资目标之间的不匹配问题。分析表明,现行奖励设计可能导致模型过度拟合短期波动而非优化风险调整收益,该问题在嘈杂中等规模量子(NISQ)设备固有的量子电路表达能力与优化不稳定性作用下进一步加剧。 该工作探讨了奖励-性能差距的影响,并提出未来改进方向,包括奖励塑形、模型正则化和基于验证的早停机制。这项研究不仅提供了可复现的基准测试,更为量子强化学习在现实金融部署中的实际挑战提供了关键见解。
