CLIP模型通过“对比学习”实现多模态特征对齐时，其核心操作是以下哪一项？（）

精华吧→答案→超星尔雅学习通未分类

A.增大不匹配的图像-文本对相似度，同时减小匹配对的相似度

B.增大匹配的图像-文本对相似度，同时减小不匹配对的相似度

C.仅增大匹配的图像-文本对相似度，不处理不匹配对

D.通过逐像素对比调整图像与文本的像素值以实现对齐

正确答案：B

答案解析：CLIP（ContrastiveLanguage-ImagePretraining）模型的核心在于利用对比学习来实现图像和文本两种模态特征的对齐。在对比学习过程中，模型的目标是让匹配的图像-文本对在特征空间中的距离拉近，也就是增大它们的相似度，这样模型能够学习到图像和对应的文本描述之间的关联。同时，要让不匹配的图像-文本对在特征空间中的距离拉远，即减小它们的相似度，以此来强化模型对正确匹配关系的学习。通过这种方式，CLIP模型能够有效地对齐图像和文本的特征表示。

选项A描述与实际目标相反；选项C只关注匹配对而不处理不匹配对无法有效实现特征对齐；选项D中CLIP模型不是通过逐像素对比调整图像与文本的像素值（文本不存在像素值概念）来实现对齐，而是在特征层面基于对比学习进行操作。所以正确答案是B。

Tag：动手学AI人工智能通识与实践时间：2025-11-16 11:44:59