主成分分析-毕业作品网站

设计任务书文档开题答辩说明书格式模板外文翻译范文资料作品文献课程实习指导调研下载网络教育 计算机 网站网页 小程序 商城购物订餐电影安卓 Android Html Html5 SSM SSH Python 爬虫大数据 管理系统 图书校园网考试选题网络安全推荐系统机械模具夹具自动化数控车床汽车故障诊断电机建模 机械手 去壳机千斤顶变速器减速器图纸电气变电站电子 Stm32 单片机 物联网 监控密码锁 Plc 组态控制智能 Matlab 土木建筑结构框架教学楼住宅楼造价施工办公楼给水排水桥梁刚构桥水利重力坝水库采矿环境化工固废工厂 视觉传达 室内设计产品设计 电子商务 物流盈利案例分析评估报告营销报销会计

首　页

机械毕业设计

电子电气毕业设计

计算机毕业设计

土木工程毕业设计

视觉传达毕业设计

理工论文

文科论文

毕设资料

帮助中心

设计流程

您现在所在的位置：首页 >>理工论文 >> 文章内容

我们提供全套毕业设计和毕业论文服务，联系微信号：biyezuopinvvp QQ：1015083682

主成分分析

文章来源：www.biyezuopin.vip 发布者：毕业作品网站

主成分分析

问题来源：

真实的样本往往维数很高，但是复杂的唯独下可能信息量不高，一些维度之间的相关性很高，对这些数据直接进行监督或非监督学习往往效率较低。在决策树一章里，给定了若干维特征，我们用这若干维特征去剪枝构造决策树时会选取一部分特征，剔除一部分特征，选择特征时按照信息增益（互信息）多少来选择，因此剪枝地构造决策树是一种降低维度的手段。下面探讨一种称作主成分分析（PCA）的方法来解决部分上述问题。PCA的思想是将n维特征映射到k维上（k<n），这k维是全新的正交特征。这k维特征称为主元，是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征。

实验原理：

刘老师上课时从最大方差的角度推出了pca算法。

我们认为，经过聚类之后的最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。

比如下图有5个样本点：

下面将样本投影到某一维上，这里用一条过原点的直线表示

假设我们选择两条不同的直线做投影，问题的关键在于那么左右两条中哪个好。根据我们之前的方差最大化理论，左边的好，因为投影后的样本点之间方差最大。投影之后保留的信息量更大。

设为样本的对应的向量表示，u为要投影方向的单位向量。

由于这些样本点（样例）的每一维特征均值都为0(这一点在样本处理时很容易做到，也是下文中样本处理的第一步)，因此投影到u上的样本点（只有一个到原点的距离值）的均值仍然是0。

所以投影后的方差为

Σ=，即为协方差矩阵，

令λ=（优化目标）

有（1）

又因为μ为单位向量，所以

对（1）式左乘μ，得到

所以λ为原协方差矩阵的特征值，μ为相对应的特征向量。

最佳的投影直线是特征值最大时对应的特征向量，其次是第二大对应的特征向量，依次类推。

实验步骤：

样本的来源，随机生成一个矩阵，行代表了样例，列代表特征，在这里我随机生成一个10行8列的样本矩阵，即有10个样本，每个样本8个特征。

第一步：分别求每个特征的平均值，然后对于所有的样例的每一维特征，都减去对应的均值。pca算法推导的条件所需。

第二步，对特征做方差归一化，求每个特征的标准差，然后对每个样例在该特征下的数据除以。每一维特征方差可能差别较大。

第三步：求协方差矩阵，协方差矩阵对角线上的数为每维特征的方差，非对角线上的数为协方差。协方差大于0，说明两个特征之间正相关，协方差小于0，说明特征之间负相关。

第四步，求协方差矩阵的特征值和特征向量。

第五步，将特征值按照从小到大的顺序排序，选择最大的K个，然后将对应的K个特征向量（列向量）最为特征向量矩阵。在本实验中，我们选K=5.

第六步，将样本点投影到选取的特征向量上。样例数为10，特征数为8，减去均值以及用标准差做归一化后的样本矩阵为stded (10*8)，协方差矩阵是8*8，选取的k个特征向量组成的矩阵为seleEigVects (8,5) 。那么投影后的数据lowDDataMat（10，5）为

lowDDataMat=stded*seleEigVects

实验结果分析：

得到的结果即是这10个样本（每个样本的维数为8），每个样本的维数降到5以后的样本矩阵。将这10个样本投影到5维空间（基即为特征值，在该维度的方差即为对应的特征值）。

降维的本质并不是直接去掉一些维度，而是用低维度的基来表示高维度的数据。如果原来的样本在这些维度的信息量很大，则降维并没有损失大量的信息。

而得到的降维后的样本矩阵对应的是每个样本在投影向量上的权重。

重建（后来老师提出的一个概念），相当于pca的一个逆过程，将降维后的数据重新映射到高纬度，并加上一个平移。（可能是因为在降维过程的第一步减去了一个均值，使所有维度的均值为0了）

附录：实现代码

from numpy import *

#coding: utf-8

def pca(dataMat, K=5):

meanVals = mean_value(dataMat)

meanRemoved = dataMat - meanVals

stded = meanRemoved / std(dataMat,axis=0)

covMat = cov(stded, axis=0)

eigVals, eigVects = linalg.eig(mat(covMat))

eigValInd = argsort(eigVals)

eigValInd = eigValInd[-K:]

seleEigVects = eigVects[:, eigValInd]

lowDDataMat = stded * seleEigVects

return lowDDataMat

def mean_value(MAT):

mean_va=random.random(size=(1,8))

for j in range(MAT.shape[1]):

sum0=0

for i in range(MAT.shape[0]):

sum0=sum0+MAT[i][j]

mean_va[0,j]=sum0

return mean_va

randArray = random.random(size=(10,8))

a=pca(randArray)

reconMat = (a * seleEigVects.T) * std(dataMat) + meanVals #重建

print a

全套毕业设计论文现成成品资料请咨询微信号：biyezuopinvvp QQ：1015083682 返回首页如转载请注明来源于www.biyezuopin.vip

打印本页 \| 关闭窗口
上一篇文章：逻辑斯蒂回归实验	下一篇文章：基于西门子PLC的自动门控制装置设计课程论文

本类最新文章

基于多传感器融合的井下装备周边人 …	室温下铁磁过渡金属掺杂ZnO薄膜 …	图像处理报告基于CNN的监控视频 …
模式识别实验3PCA（通过mat …	基于SSM架构的宠物救助管理系统 …	REST与AJAX（翻译）

| 关于我们 | 友情链接 | 毕业设计招聘 |

Email：biyeshejiba@163.com 微信号：biyezuopinvvp QQ：1015083682
本站毕业设计和毕业论文资料均属原创者所有,仅供学习交流之用,请勿转载并做其他非法用途.如有侵犯您的版权有损您的利益,请联系我们会立即改正或删除有关内容!