pca函数python pca降维公式

PCA(主成分分析)python实现

回顾了下PCA的步骤，并用python实现。深刻的发现当年学的特征值、特征向量好强大。

成都创新互联公司作为成都网站建设公司，专注重庆网站建设、网站设计，有关成都企业网站定制方案、改版、费用等问题，行业涉及成都自拌料搅拌车等多个领域，已为上千家企业服务，得到了客户的尊重与认可。

PCA是一种无监督的学习方式，是一种很常用的降维方法。在数据信息损失最小的情况下，将数据的特征数量由n，通过映射到另一个空间的方式，变为k(kn)。

这里用一个2维的数据来说明PCA，选择2维的数据是因为2维的比较容易画图。

这是数据：

画个图看看分布情况：

协方差的定义为：

假设n为数据的特征数，那么协方差矩阵M, 为一个n n的矩阵，其中Mij为第i和第j个特征的协方差，对角线是各个特征的方差。

在我们的数据中，n=2，所以协方差矩阵是2 2的，

通过numpy我们可以很方便的得到：

得到cov的结果为：

array([[ 0.61655556, 0.61544444],

[ 0.61544444, 0.71655556]])

由于我们之前已经做过normalization，因此对于我们来说，

这个矩阵就是 data*data的转置矩阵。

得到结果：

matrix([[ 5.549, 5.539],

[ 5.539, 6.449]])

我们发现，其实协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）。因此他们的特征根和特征向量是一样的。这里值得注意的一点就是，散度矩阵是 SVD奇异值分解的一步，因此PCA和SVD是有很大联系的，他们的关系这里就不详细谈了，以后有机会再写下。

用numpy计算特征根和特征向量很简单，

但是他们代表的意义非常有意思，让我们将特征向量加到我们原来的图里：

其中红线就是特征向量。有几点值得注意：

蓝色的三角形就是经过坐标变换后得到的新点，其实他就是红色原点投影到红线、蓝线形成的。

得到特征值和特征向量之后，我们可以根据特征值的大小，从大到小的选择K个特征值对应的特征向量。

这个用python的实现也很简单：

从eig_pairs选取前k个特征向量就行。这里，我们只有两个特征向量，选一个最大的。

主要将原来的数据乘以经过筛选的特征向量组成的特征矩阵之后，就可以得到新的数据了。

output：

数据果然变成了一维的数据。

最后我们通过画图来理解下数据经过PCA到底发生了什么。

绿色的五角星是PCA处理过后得到的一维数据，为了能跟以前的图对比，将他们的高度定位1.2，其实就是红色圆点投影到蓝色线之后形成的点。这就是PCA,通过选择特征根向量，形成新的坐标系，然后数据投影到这个新的坐标系，在尽可能少的丢失信息的基础上实现降维。

通过上述几步的处理，我们简单的实现了PCA第一个2维数据的处理，但是原理就是这样，我们可以很轻易的就依此实现多维的。

用sklearn的PCA与我们的pca做个比较：

得到结果：

用我们的pca试试

得到结果：

完全一致，完美~

值得一提的是，sklearn中PCA的实现，用了部分SVD的结果，果然他们因缘匪浅。

python pca怎么得到主成份

一般步骤来实现PCA算法

（1）零均值化

假如原始数据集为矩阵dataMat，dataMat中每一行代表一个样本，每一列代表同一个特征。零均值化就是求每一列的平均值，然后该列上的所有数都减去这个均值。也就是说，这里零均值化是对每一个特征而言的，零均值化都，每个特征的均值变成0。实现代码如下：

[python] view plain copy

def zeroMean(dataMat):

meanVal=np.mean(dataMat,axis=0) #按列求均值，即求各个特征的均值

newData=dataMat-meanVal

return newData,meanVal

函数中用numpy中的mean方法来求均值，axis=0表示按列求均值。

该函数返回两个变量，newData是零均值化后的数据，meanVal是每个特征的均值，是给后面重构数据用的。

（2）求协方差矩阵

[python] view plain copy

newData,meanVal=zeroMean(dataMat)

covMat=np.cov(newData,rowvar=0)

numpy中的cov函数用于求协方差矩阵，参数rowvar很重要！若rowvar=0，说明传入的数据一行代表一个样本，若非0，说明传入的数据一列代表一个样本。因为newData每一行代表一个样本，所以将rowvar设置为0。

covMat即所求的协方差矩阵。

（3）求特征值、特征矩阵

调用numpy中的线性代数模块linalg中的eig函数，可以直接由covMat求得特征值和特征向量：

[python] view plain copy

eigVals,eigVects=np.linalg.eig(np.mat(covMat))

eigVals存放特征值，行向量。

eigVects存放特征向量，每一列带别一个特征向量。

特征值和特征向量是一一对应的

（4）保留主要的成分[即保留值比较大的前n个特征]

第三步得到了特征值向量eigVals，假设里面有m个特征值，我们可以对其排序，排在前面的n个特征值所对应的特征向量就是我们要保留的，它们组成了新的特征空间的一组基n_eigVect。将零均值化后的数据乘以n_eigVect就可以得到降维后的数据。代码如下：

[python] view plain copy

eigValIndice=np.argsort(eigVals) #对特征值从小到大排序

n_eigValIndice=eigValIndice[-1:-(n+1):-1] #最大的n个特征值的下标

n_eigVect=eigVects[:,n_eigValIndice] #最大的n个特征值对应的特征向量

lowDDataMat=newData*n_eigVect #低维特征空间的数据

reconMat=(lowDDataMat*n_eigVect.T)+meanVal #重构数据

return lowDDataMat,reconMat

代码中有几点要说明一下，首先argsort对特征值是从小到大排序的，那么最大的n个特征值就排在后面，所以eigValIndice[-1:-(n+1):-1]就取出这个n个特征值对应的下标。【python里面，list[a:b:c]代表从下标a开始到b，步长为c。】

如何用python实现pca降维

首先2个包：

import numpy as np

from sklearn.decomposition import PCA

然后一个m x n 的矩阵，n为维度，这里设为x。

n_components = 12 是自己可以设的。

pca = PCA(n_components=12)

pca.fit(x)

PCA(copy=True, iterated_power='auto', n_components=12, random_state=None,

svd_solver='auto', tol=0.0, whiten=False)

float_formatter = lambda x: "%.2f" % x

np.set_printoptions(formatter={'float_kind':float_formatter})

print 'explained variance ratio:'

print pca.explained_variance_ratio_

print 'cumulative sum:'

print pca.explained_variance_ratio_.cumsum()

名称栏目：pca函数python pca降维公式
分享地址：http://chengdu.cdxwcx.cn/article/hjeeps.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

pca函数python pca降维公式

PCA(主成分分析)python实现

python pca怎么得到主成份

如何用python实现pca降维

其他资讯

linux重启执行命令 linux里重启命令

电影选座java代码电影院选座代码

Mac终端支持linux命令吗 mac终端怎么执行命令

查带宽命令linux linux查看带宽

java代码生成ppt java代码生成个人简历

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

pca函数python pca降维公式

PCA(主成分分析)python实现

python pca怎么得到主成份

如何用python实现pca降维

其他资讯

linux重启执行命令 linux里重启命令

电影选座java代码 电影院选座代码

Mac终端支持linux命令吗 mac终端怎么执行命令

查带宽命令linux linux查看带宽

java代码生成ppt java代码生成个人简历

成都网站建设设计将想法与焦点和您一起共享

电影选座java代码电影院选座代码