一个关于主成分得分的讨论，稍具争议。请大佬指路。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1143 天前的主题，其中的信息可能已经有所发展或是发生改变。

请看下图，我在一篇论文中的确看到了应用主成分得分的方法对样本排序，当时就觉得很奇怪，为什么方差越大的主成分给的权重就越大，这样做的理论依据是什么？想达到什么目的？
关于下图中的内容我有如下疑问，原文引用基本都来自书中划线部分。

1 ，“ 而仅是体现在数据的变异性上，把反映数据变异性信息的前 m 个主成分线性组合起来将会瓦解主成分在变异性信息上的优势，”-----既然主成分反映了数据的变异性，为什么把它们线性组合起来，反而破坏了变异性上的优势？

2 ，“ 这是因为，原始变量的含义是实在的、确切的,这是看懂和理解线性组合含义的基础;而主成分是人为定义、意义含糊的”----------我也有这种感觉，觉得主成分意义模糊。但是否有针对性的方法克服上述障碍呢？总不能让主成分分析的结果闲置吧。

其次，大家是否有专门讨论“主成分分析结果如何应用”的书籍或文章推荐？（不涉及如何计算主成分）。

摘自上海财经大学王学民老师应用多元统计分析

成分

变异性

线性

异性

2 条回复

bilberry

2022-02-27 01:12:01 +08:00

重新复习了上学期讲的 PCA ，说下我的理解。

为什么方差越大的主成分给的权重就越大？
多维数据求的是协方差矩阵，协方差矩阵分解，如使用奇异值分解，会得到特征向量和特征值，每个特征向量对应由特征值。空间坐标系中，特征向量所表示的是各个成分的方向，特征值表在各方向上的大小。这个时候，某个方向上的协方差越大，其特征值就越大，对应“方差越大的主成分给的权重就越大”，我是这么觉得。这就好比初中物理的受力分解，可以随机找点数据测试下。

比如随便一个三维数据，x 分布[0,1]，y 分布[0,5]，z=0 ，分解后会发现 y 的特征值最大，z 的最小为 0 ，后面降维时 z 可以去掉，基本不会影响主成分。

huzhikuizainali

2022-02-27 09:58:30 +08:00

如使用奇异值分解，会得到特征向量和特征值----------协方差矩阵是实对称矩阵。而且是个方阵。所以没必要用奇异值分解，直接正交对角化就可以得到特征值特征向量（特征值分解可以看成奇异值分解的特殊形式，既被分解的是一个方阵。而奇异值分解可以看成特征值分解的普遍形式，方阵非方阵都适用）

某个方向上的协方差越大，其特征值就越大，---------你是不是想说方差越大就……。在某个方向上只有方差，只有不同方向间才有协方差，且 pca 后协方差=0

对应“方差越大的主成分给的权重就越大”，---------书中批判的就是这种方法或者说是理念。认为这样做没有理论依据!