量子启发的1024维文档嵌入表征局限研究:实验评估框架
文本嵌入是现代信息检索与检索增强生成(RAG)的核心技术。虽然当前主流实践采用源自大语言模型(LLM)的稠密模型,但近期研究受希尔伯特式空间的几何特性及其编码更丰富语义结构的潜力启发,开始探索量子启发的替代方案。本文提出了一种实验框架,通过重叠窗口和多尺度聚合构建1024维量子启发式文档嵌入。该流程整合了语义投影(如EigAngle)、电路启发的特征映射、可选的师生蒸馏技术,以及确保可复现性和可控评估的指纹机制。研究团队开发了一套混合检索诊断工具,包括BM25与嵌入评分的静态/动态插值、候选集合并策略,以及为分数级融合提供理论上界的α预言机概念。在意大利语和英语的技术、叙事、法律领域受控语料库上使用合成查询的测试表明:BM25仍是强基线,教师嵌入能提供稳定的语义结构,而独立量子启发式嵌入则表现出微弱且不稳定的排序信号。蒸馏效果参差——虽能提升某些情况下的对齐度,但未持续改善检索性能;而结合词法与嵌入信号的混合检索则可恢复竞争力。总体而言,结果揭示了量子启发式嵌入在几何结构上的固有局限(包括距离压缩和排序不稳定性),明确了其作为辅助组件而非独立检索表征的定位。

