多模态生成的“理解型（语言为主型）”路线的核心特点是？（）

精华吧→答案→超星尔雅学习通未分类

A.把文字当作生成指令，直接参与图像生成过程

B.先将图片转成特征并视作文本，交给语言模型生成回答

C.仅能处理单一模态的输入数据

D.无需依赖编码器将多模态数据转成特征向量

正确答案：B

答案解析：

选项A：“把文字当作生成指令，直接参与图像生成过程”更符合以图像生成为主的多模态生成方式，例如直接根据文本描述生成图像，并非理解型（语言为主型）路线核心特点，所以A选项错误。

选项B：多模态生成的“理解型（语言为主型）”路线核心特点是先将非语言模态（如图片）转化成特征，并将这些特征视作文本，然后交给强大的语言模型进行处理，生成相应回答。这种方式以语言模型为核心来理解和处理多模态信息，所以B选项正确。

选项C：多模态生成旨在处理多种模态数据，并非仅能处理单一模态输入数据，这与多模态生成概念相悖，所以C选项错误。

选项D：多模态生成通常需要依赖编码器将不同模态数据转化成特征向量，以便模型进行统一处理和学习，“无需依赖编码器”说法错误，所以D选项错误。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 11:45:38