量子启发的自注意力机制在大语言模型中的应用
自然语言处理领域的最新进展主要由基于Transformer架构的模型推动,这类架构高度依赖自注意力机制来建模序列中标记之间的关系。同样,量子自然语言处理领域——旨在利用量子原理解决语言理解与生成任务中的挑战——近期也出现了量子自注意力机制的研发成果。该研究团队提出了一种经典量子启发的自注意力机制(QISA),并将其集成到GPT-1完整的自回归语言建模流程中。据我们所知,这是此类机制的首次集成应用,因为先前的量子自注意力机制主要仅在文本分类任务中进行过测试。实验结果表明,在字符错误率(提升15.5倍)、单词错误率(提升4.7倍)和交叉熵损失(提升13倍)等指标上,QISA机制相比标准自注意力机制展现出更优性能,且仅需付出2.6倍的推理时间代价。
量科快讯
1 天前
1 天前

