迈向多智能体科学人工智能系统的评估框架

该研究团队分析了评估科学(多)智能体系统时面临的挑战,包括难以区分推理与检索过程、数据/模型污染风险、针对新研究问题缺乏可靠基准答案、工具使用带来的复杂性,以及知识库持续更新导致的复现难题。团队探讨了构建抗污染问题的方法、生成可扩展任务系列的策略,以及通过更贴近真实科研实践的多轮交互来评估系统的必要性。作为可行性验证,该工作展示了如何构建新型研究构想数据集以测试系统的样本外表现。此外,团队还讨论了与量子科学领域研究者及工程师的访谈结果,通过分析科研人员对AI系统的交互预期,探讨这些预期应如何影响评估方法的构建。

作者单位: VIP可见
页数/图表: 登录可见
提交arXiv: 2026-03-18 16:05

量科快讯