PCA降维

PCA主成分分析

1.降维的概念:

1
2
3
4
5
6
降维是一种对高维度数据预处理的方法,保留重要的特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的.
降维的方法:
1.SVD奇异值分解
2.PCA主成分分析(使用最广泛)
3.FA因子分析
4.ICA独立成分分析

2.PCA的概念

1
思想是将n为特征映射到k维上,k维为全新的正交特征,也被称为主成分.第一个坐标轴为原始数据中方差最大的方向,第二个坐标轴是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第一、二个轴正交的平面中方差最大的.后面的坐标轴的方差几乎为0,可以忽略,从而实现降维.

如何获得主成分

1
计算数据矩阵的协方差矩阵,得到协方差矩阵的特征值、特征向量,选择特征值最大的k个特征所对应的特征向量组成的矩阵。这样就实现了降维。====获取特征值、特征向量的两种方法,特征值分解和奇异值分解

sklearn调用PCA

1
2
3
4
5
from sklearn.decomposition import PCA
import numpy as np
X = np.array([[-1,2],[-1,2],[1,2]])
pca=PCA(n_components=1)
pca.fit(X)