ACEBench测评框架中的“异常评测(Special模式)”主要考察智能体的哪项能力?()



ACEBench测评框架中的“异常评测(Special模式)”主要考察智能体的哪项能力?()

A.明确指令下准确调用工具的能力

B.输入信息缺失或模糊时主动追问的能力

C.端到端完成复杂多轮任务的能力

D.多智能体协同工作的能力

正确答案:B

答案解析:

选项A:明确指令下准确调用工具的能力通常在针对工具调用准确性和响应性的常规测试场景中考察,重点关注智能体是否能按照清晰的指令正确调用各类工具,而不是异常评测(Special模式)的主要考察点,所以A选项不符合。

选项B:在异常评测(Special模式)中,故意设置输入信息缺失或模糊的情况,以此来检验智能体能否主动通过追问等方式获取足够的、明确的信息,进而完成任务。这体现了智能体在面对不完整或模糊输入时的应对和处理能力,所以输入信息缺失或模糊时主动追问的能力是该模式主要考察的,B选项正确。

选项C:端到端完成复杂多轮任务的能力一般在综合性的多轮任务测试场景中考察,关注智能体在一系列复杂交互和任务流程中的整体表现,并非异常评测(Special模式)所聚焦的能力,C选项不正确。

选项D:多智能体协同工作的能力需要专门设计的多智能体交互场景来考察,例如考察多个智能体如何分工、协作以达成共同目标,与异常评测(Special模式)针对输入信息异常时的考察方向不同,D选项也不正确。


Tag:动手学AI人工智能通识与实践 时间:2025-11-16 13:07:46