在Transformer的多头注意力机制中，每个注意力头负责的功能（如语法关系、语义相似性、位置关系等）是由程序员预先设定和编码的。

精华吧→答案→超星尔雅学习通未分类

A、正确

B、错误

正确答案：B

答案解析：在Transformer的多头注意力机制中，每个注意力头负责的功能并非由程序员预先设定和编码。多头注意力机制通过多个不同的线性投影矩阵将输入映射到不同的子空间，每个注意力头独立地学习对输入序列不同方面的关注。

在训练过程中，模型会根据大量的数据自动学习每个注意力头应该关注输入的哪些部分以及捕捉何种关系，例如语法关系、语义相似性、位置关系等。不同的注意力头会在训练中逐渐形成各自对输入信息的独特“理解”和关注重点，从而从多个角度提取输入序列的特征。这种学习过程是数据驱动的，而不是由人工预先设定每个头具体负责的功能。所以该说法错误。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 11:30:01