多模态生成的“理解型(语言为主型)”路线的核心特点是?()



多模态生成的“理解型(语言为主型)”路线的核心特点是?()

A.把文字当作生成指令,直接参与图像生成过程

B.先将图片转成特征并视作文本,交给语言模型生成回答

C.仅能处理单一模态的输入数据

D.无需依赖编码器将多模态数据转成特征向量

正确答案:B

答案解析:

选项A:“把文字当作生成指令,直接参与图像生成过程”更符合以图像生成为主的多模态生成方式,例如直接根据文本描述生成图像,并非理解型(语言为主型)路线核心特点,所以A选项错误。

选项B:多模态生成的“理解型(语言为主型)”路线核心特点是先将非语言模态(如图片)转化成特征,并将这些特征视作文本,然后交给强大的语言模型进行处理,生成相应回答。这种方式以语言模型为核心来理解和处理多模态信息,所以B选项正确。

选项C:多模态生成旨在处理多种模态数据,并非仅能处理单一模态输入数据,这与多模态生成概念相悖,所以C选项错误。

选项D:多模态生成通常需要依赖编码器将不同模态数据转化成特征向量,以便模型进行统一处理和学习,“无需依赖编码器”说法错误,所以D选项错误。


Tag:动手学AI人工智能通识与实践 时间:2025-11-16 11:45:38