Principal Component Analysis

Posted on 2021-05-27 Edited on 2021-09-23 In Machine Learning

Principal Component Analysis (PCA)

WHY PCA

实践中比如我们看到一个人的信息，他可能有很多很多的feature--身高、体重、血小板数量等等，但是对我们所关心的话题（他长得帅不帅）所有实际意义的feature可能很少。因此我们尝试用PCA找出哪些feature对我们所关系的问题有实际的意义，从而实现对数据的降维（有损）。

How to find Principal Component？

在数据的层面上什么是PC呢？

举个例子--如何把二维的数据降维到一维：

原本 \(x \in R^2\) ，现在是 \(x \in R\) 。降维的方式是任意的，但是我们如何评价这个降维是合理的？--降维后的数据的方差尽可能大，这样可以很直观地保证数据内部的信息尽可能地被保留。

在二维平面上的一系列点降维到一维上，从过程上看是将平面上的点投影到一条直线上去。

一般情况下我们会对数据进行中心化处理（数据均值变为原点），由此使得我们找的直线也能经过原点。

投影过后，投影的值假设为 \(b1,b2,b3,b4,b5,b6\) 。它们的均值也为0（原数据经过均值化）。那么方差即为 \((b1^2+b2^2+b3^2+b4^2+b5^2+b6^2)/6\) 。所以我们要做的就是让投影后的norm2之和最大化。同样这也等价于让原数据点到直线的距离的平方和最小。（注意这是两种视角）