V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
huzhikuizainali
V2EX  ›  数学

一个关于主成分得分的讨论,稍具争议。请大佬指路。

  •  
  •   huzhikuizainali · 2022-02-24 15:18:33 +08:00 · 1248 次点击
    这是一个创建于 1008 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请看下图,我在一篇论文中的确看到了应用主成分得分的方法对样本排序,当时就觉得很奇怪,为什么方差越大的主成分给的权重就越大,这样做的理论依据是什么?想达到什么目的?
    关于下图中的内容我有如下疑问,原文引用基本都来自书中划线部分。

    1 ,“ 而仅是体现在数据的变异性上,把反映数据变异性信息的前 m 个主成分线性组合起来将会瓦解主成分在变异性信息上的优势,”-----既然主成分反映了数据的变异性,为什么把它们线性组合起来,反而破坏了变异性上的优势?

    2 ,“ 这是因为,原始变量的含义是实在的、确切的,这是看懂和理解线性组合含义的基础;而主成分是人为定义、意义含糊的”----------我也有这种感觉,觉得主成分意义模糊。但是否有针对性的方法克服上述障碍呢?总不能让主成分分析的结果闲置吧。

    其次,大家是否有专门讨论“主成分分析结果如何应用”的书籍或文章推荐?(不涉及如何计算主成分)。




    摘自上海财经大学王学民老师应用多元统计分析
    bilberry
        1
    bilberry  
       2022-02-27 01:12:01 +08:00
    重新复习了上学期讲的 PCA ,说下我的理解。

    为什么方差越大的主成分给的权重就越大?
    多维数据求的是协方差矩阵,协方差矩阵分解,如使用奇异值分解,会得到特征向量和特征值,每个特征向量对应由特征值。空间坐标系中,特征向量所表示的是各个成分的方向,特征值表在各方向上的大小。这个时候,某个方向上的协方差越大,其特征值就越大,对应“方差越大的主成分给的权重就越大”,我是这么觉得。这就好比初中物理的受力分解,可以随机找点数据测试下。

    比如随便一个三维数据,x 分布[0,1],y 分布[0,5],z=0 ,分解后会发现 y 的特征值最大,z 的最小为 0 ,后面降维时 z 可以去掉,基本不会影响主成分。
    huzhikuizainali
        2
    huzhikuizainali  
    OP
       2022-02-27 09:58:30 +08:00
    如使用奇异值分解,会得到特征向量和特征值----------协方差矩阵是实对称矩阵。而且是个方阵。所以没必要用奇异值分解,直接正交对角化就可以得到特征值特征向量(特征值分解可以看成奇异值分解的特殊形式,既被分解的是一个方阵。而奇异值分解可以看成特征值分解的普遍形式,方阵非方阵都适用)

    某个方向上的协方差越大,其特征值就越大,---------你是不是想说方差越大就……。在某个方向上只有方差,只有不同方向间才有协方差,且 pca 后协方差=0

    对应“方差越大的主成分给的权重就越大”,---------书中批判的就是这种方法或者说是理念。认为这样做没有理论依据!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4109 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 04:11 · PVG 12:11 · LAX 20:11 · JFK 23:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.