生成式量子机器学习中的数值数据编码

生成式量子机器学习模型经过训练,能够推断给定数据集背后的概率分布,并从中生成新的合成样本。文献中提出的大多数此类模型(如量子电路玻恩机QCBM)本质上基于二进制层面运行。然而现实世界的数据通常为数值型,需要模型在二进制与连续表示之间进行转换。该研究团队分析了这种转换如何影响量子模型的性能,并证明该过程迫使模型学习仅由数据编码方式人为引入的关联性,而非数据本身的真实关联。同时,原始数据的结构可能在二进制表示中被模糊化,从而阻碍泛化能力。为缓解这些影响,研究人员提出了一种基于格雷码的策略,该策略几乎无需额外开销即可实现,能保留数据结构,并在标准方法会产生人工关联的场景中避免此类伪相关性。通过测试从多种一维概率分布中提取的数据集,该工作验证了在多数情况下,采用反射格雷码的QCBM模型比标准二进制编码模型学习速度更快、精度更高。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-03-24 16:39

量科快讯