在潜在语义分析中,给定M个单词和N个文档所构成的单词-文档矩阵(term-document)矩阵,对其进行分解,将单词或文档映射到一个R维的隐性空间。下面描述不正确的是()
在潜在语义分析中,给定M个单词和N个文档所构成的单词-文档矩阵(term-document)矩阵,对其进行分解,将单词或文档映射到一个R维的隐性空间。下面描述不正确的是()
A、单词和文档映射到隐性空间后具有相同的维度
B、隐性空间维度的大小由分解过程中所得对角矩阵中对角线上不为零的系数个数所决定
C、这一映射过程中需要利用文档的类别信息
D、通过矩阵分解可重建原始单词-文档矩阵,所得到的重建矩阵结果比原始单词-文档矩阵更好捕获了单词-单词、单词-文档、文档-文档之间的隐性关系
正确答案:C
答案解析:
选项A:在潜在语义分析中,将单词和文档映射到隐性空间后,它们在这个隐性空间中的维度是相同的,都为R维,这是潜在语义分析的基本设定,通过矩阵分解将单词和文档投影到同一隐性语义空间,所以该选项描述正确。
选项B:潜在语义分析通常通过奇异值分解(SVD)等方法对单词-文档矩阵进行分解。在SVD分解中,会得到一个对角矩阵,对角线上不为零的系数个数决定了隐性空间的维度,因为这些非零奇异值对应的奇异向量构成了隐性空间的基向量,所以该选项描述正确。
选项C:潜在语义分析是一种无监督学习方法,在映射过程中并不需要利用文档的类别信息,它主要是基于单词-文档矩阵的统计信息来发现潜在的语义结构,所以该选项描述错误。
选项D:通过矩阵分解重建原始单词-文档矩阵,在这个过程中,由于分解将矩阵在低维隐性空间进行表示,能够去除一些噪声和冗余信息,从而比原始矩阵更好地捕获单词-单词、单词-文档、文档-文档之间的隐性关系,所以该选项描述正确。