Principal Component Analysis

Principal Component Analysis (PCA)

WHY PCA

实践中比如我们看到一个人的信息,他可能有很多很多的feature--身高、体重、血小板数量等等,但是对我们所关心的话题(他长得帅不帅)所有实际意义的feature可能很少。因此我们尝试用PCA找出哪些feature对我们所关系的问题有实际的意义,从而实现对数据的降维(有损)。

How to find Principal Component?

在数据的层面上什么是PC呢?

举个例子--如何把二维的数据降维到一维:

原本 \(x \in R^2\) ,现在是 \(x \in R\) 。降维的方式是任意的,但是我们如何评价这个降维是合理的?--降维后的数据的方差尽可能大,这样可以很直观地保证数据内部的信息尽可能地被保留。

在二维平面上的一系列点降维到一维上,从过程上看是将平面上的点投影到一条直线上去。

一般情况下我们会对数据进行中心化处理(数据均值变为原点),由此使得我们找的直线也能经过原点。

投影过后,投影的值假设为 \(b1,b2,b3,b4,b5,b6\) 。它们的均值也为0(原数据经过均值化)。那么方差即为 \((b1^2+b2^2+b3^2+b4^2+b5^2+b6^2)/6\) 。所以我们要做的就是让投影后的norm2之和最大化。同样这也等价于让原数据点到直线的距离的平方和最小。(注意这是两种视角)