混合学习与优化方法求解带容量约束的车辆路径问题
带容量约束的车辆路径规划问题(CVRP)是物流领域的核心NP难问题。基于增广拉格朗日法(ALM)的求解效果高度依赖精细调参的惩罚系数。该研究团队提出融合深度强化学习(RL)的混合优化方法,在经典ALM求解器(RL-C-ALM)与量子增强ALM求解器(RL-Q-ALM)中实现惩罚系数的自动化选择。通过柔性演员-评论家算法,该工作从CVRP案例特征和约束违反情况中学习惩罚值设定策略。RL-Q-ALM将子问题编码为二次无约束二值优化问题(QUBO),并采用变分量子本征求解器(VQE)处理。智能体通过最大化解可行性及最小化运输成本进行多轮学习。实验表明:在合成与基准CVRP案例中,RL-C-ALM相比人工调参ALM能以更少迭代次数获得更优解;RL-Q-ALM在小型案例上虽能达到经典求解质量,但受量子计算开销影响存在更高耗时。该成果揭示了强化学习结合经典与量子求解器在可扩展自适应组合优化领域的应用潜力。
