上海交大金贤敏课题组研发混合架构光子芯片实现高效强化学习

技术研究 上海交通大学 2024-02-23 10:09

上海交通大学物理与天文学院金贤敏课题组研发了一种创新的混合架构可编程光子芯片,并成功将其应用于高效求解钙钛矿材料合成任务的强化学习领域。这一重要研究成果以“High-efficiency reinforcement learning with hybrid architecture photonic integrated circuit”为题,于2024年2月5日在Nature Communications期刊上在线发表。 

强化学习(Reinforcement Learning, RL)是机器学习的核心范式之一,在构建通用学习系统(例如大语言模型等)中发挥着至关重要的作用。然而,传统电子计算机用于模拟强化学习模型中智能体与环境交互的做法,消耗了大量计算资源,对强化学习效率提出了重大挑战。为了克服这一难题,研究团队提出了一个通用框架,利用光子集成芯片(PIC)来模拟强化学习中的交互,以提高算法效率。这一研究结果验证了在PIC平台上模拟RL算法交互的有效性,突显了其在大规模和复杂的RL任务中提高计算能力的潜力。

上海交大金贤敏课题组研发混合架构光子芯片实现高效强化学习
图1 a) 混合架构光子芯片(HyArch PIC)示意图;b) 基于光子芯片的强化学习(PIC-RL)框架。

研究团队设计的混合架构光子芯片(HyArch PIC)在可扩展性和多功能性方面相较于单一集成光计算架构(如SVD网络和光学线性神经元架构)表现出显著优势。将HyArch PIC与高速FPGA和电驱动器集成在单个开发板上,形成高度集成的光电计算板卡,提供了巨大的硬件优化空间。通过全局参数优化和链路校准,HyArch PIC可以完成高达15维光学点积操作的高精度运算,确保后续复杂RL算法在光子芯片上的有效执行。

上海交大金贤敏课题组研发混合架构光子芯片实现高效强化学习
图2 基于HyArch PIC芯片光电计算系统的实验展示。

引入相似度奖励函数(SRF)后,在悬崖行走基准测试中实现了比恒定奖励函数(CRF)呈指数加速的效果。基于高效的SRF-RL,研究团队成功在3472维状态空间内完成了钙钛矿材料合成任务,并使算法效率提升了56%。值得注意的是,高度可扩展的HyArch PIC在计算性能方面展现出了超越现有电子计算架构的巨大潜力,为推动下一代强化学习的发展做出了显著贡献。

上海交大金贤敏课题组研发混合架构光子芯片实现高效强化学习
图3 基于PIC-RL的钙钛矿材料合成任务求解。

PIC-RL框架首次成功实现了在可编程光子芯片上进行复杂强化学习任务的实验求解,同时,HyArch PIC的独特优势为光神经网络和光量子计算开辟了新的研究方向。这项研究为进一步探索强化学习和利用光子集成芯片技术实现更先进的人工智能算法奠定了基础。

上海交通大学物理与天文学院博士研究生李轩坤为本文的第一作者,金贤敏教授为通讯作者。这一工作得到了国家重点研发计划、国家自然科学基金委员会、量子科学与技术创新计划、上海市科学技术委员会、上海市教育委员会、中国博士后科学基金会等项目的资助。