HQTN-SER: 基于混合量子张量网络的语音情感识别

语音情感识别(SER)在真实场景中仍然脆弱,因为情感线索微妙、具有说话人依赖性,且容易受录音条件差异的干扰,而高性能深度模型通常依赖大规模精心整理的数据集。量子机器学习提供了一种替代方案,能够通过紧凑模块引入非线性关联建模,然而现有量子SER研究仍十分有限,且电路结构的影响尚未得到充分理解。本文提出HQTN-SER,一种混合量子-经典框架,旨在探究量子张量网络连接性如何在少量子比特场景下支持SER。HQTN-SER引入了:(i) 一种受MPS启发的量子张量网络模块,通过结构化交互来建模语音表征中的相关性,且仅需少量可训练参数;(ii) 一种融合策略,将量子测量特征与学习到的经典潜在嵌入相结合,用于端到端结合,用于端到端情感分类。该团队在统一的预处理和训练协议下,在三个公开基准数据集(RAVDESS、SAVEE和MDER)上对HQTN-SER进行了评估。该模型在各数据集上表现稳定,准确率分别为:RAVDESS 80.12%、SAVEE 78.26%、MDER 73.51%,且收敛稳定、量子比特数低,表明张量网络结构可成为量子辅助SER中一种有效且硬件感知的设计选择。研究结果提供了一个可复现的基线,并阐明了结构化量子模块在当今条件下何时能为SER带来实际价值。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-05-14 08:07

量科快讯