上海交大金贤敏课题组研发混合架构光子芯片实现高效强化学习

技术研究上海交通大学 2024-02-23 10:09

上海交通大学物理与天文学院金贤敏课题组研发了一种创新的混合架构可编程光子芯片，并成功将其应用于高效求解钙钛矿材料合成任务的强化学习领域。这一重要研究成果以“High-efficiency reinforcement learning with hybrid architecture photonic integrated circuit”为题，于2024年2月5日在Nature Communications期刊上在线发表。

强化学习（Reinforcement Learning, RL）是机器学习的核心范式之一，在构建通用学习系统（例如大语言模型等）中发挥着至关重要的作用。然而，传统电子计算机用于模拟强化学习模型中智能体与环境交互的做法，消耗了大量计算资源，对强化学习效率提出了重大挑战。为了克服这一难题，研究团队提出了一个通用框架，利用光子集成芯片（PIC）来模拟强化学习中的交互，以提高算法效率。这一研究结果验证了在PIC平台上模拟RL算法交互的有效性，突显了其在大规模和复杂的RL任务中提高计算能力的潜力。

上海交大金贤敏课题组研发混合架构光子芯片实现高效强化学习 — 图1 a) 混合架构光子芯片（HyArch PIC）示意图；b) 基于光子芯片的强化学习（PIC-RL）框架。

研究团队设计的混合架构光子芯片（HyArch PIC）在可扩展性和多功能性方面相较于单一集成光计算架构（如SVD网络和光学线性神经元架构）表现出显著优势。将HyArch PIC与高速FPGA和电驱动器集成在单个开发板上，形成高度集成的光电计算板卡，提供了巨大的硬件优化空间。通过全局参数优化和链路校准，HyArch PIC可以完成高达15维光学点积操作的高精度运算，确保后续复杂RL算法在光子芯片上的有效执行。

引入相似度奖励函数（SRF）后，在悬崖行走基准测试中实现了比恒定奖励函数（CRF）呈指数加速的效果。基于高效的SRF-RL，研究团队成功在3472维状态空间内完成了钙钛矿材料合成任务，并使算法效率提升了56%。值得注意的是，高度可扩展的HyArch PIC在计算性能方面展现出了超越现有电子计算架构的巨大潜力，为推动下一代强化学习的发展做出了显著贡献。