基于互信息的量子策略梯度流水线中时序表达能力与可训练性评估指标
近年来,传统监督学习的诸多局限性日益凸显,这促使强化学习——以及进一步利用量子纠缠与叠加等资源的量子强化学习——成为备受关注的新型替代方案。在众多强化学习方法中,基于梯度的策略梯度方法因其多重优势备受推崇。在量子领域,这类方法更具独特价值:它们能通过参数化量子电路(PQCs)便捷实现。从学习效能角度考量,两大核心指标尤为关键:表达能力,以及针对梯度优化方法而言的可训练性。尽管学界已多次尝试量化PQCs的表达能力与可训练性,但强化学习语境下的系统性研究尚属空白。为此,该研究团队创新性地定义了适用于强化学习的表达能力概念,并证明动作分布与奖励信号分布之间的互信息能在特定层面同时反映表达能力与可训练性信息。此项研究的价值在于:其一为强化学习中PQCs的筛选提供了简易判据;其二在智能体表现无法通过回合结果显式评估的黑箱场景下,仍能间接推演学习进程。
量科快讯
40 分钟前
54 分钟前
【澳大利亚国立大学科学家在原子中实现了量子纠缠的首次观测】澳大利亚国立大学(ANU)的量子物理学家首次在运动状态下观测到原子纠缠。据研究人员称,他们的实验使用氦原子,相比以往使用光子进行的类似实验取…
1 天前
【比利时与波兰研究人员开发出可以验证任何量子态的通用方案】比利时布鲁塞尔自由大学、波兰格但斯克大学和波兰科学院的研究人员近期提出一种新的通用方案,可用于自我检测任意量子态或量子测量。据研究人员介绍,…
1 天前
【研究人员开发的新协议可用于在大规模量子实验中重建量子态】法国格勒诺布尔阿尔卑斯大学、德国慕尼黑工业大学、德国马克斯·普朗克量子光学研究所、奥地利因斯布鲁克大学和意大利博洛尼亚大学的研究人员近期开发…
1 天前
【超导量子计算机企业IQM获贝莱德集团5000万欧元投资】全栈超导量子计算机企业IQM昨日宣布,它已获得由BlackRock(贝莱德集团)管理的基金及账户提供的5000万欧元(约4亿元人民币)融资。…
2 天前
2 天前

