请细讲一下图中的“R,L,C”,最好能附上相关事物的照片,以通俗易懂的方式讲解此问题

推荐的人气答主(top

祖母:很有趣!所以这PCA检查哪些特性是冗余的然后丢弃它们?

你:问得好奶奶!不,PCA并没有选择些特性然后丢弃其余相反,它创建些特性结果这些新特性能够很好地总结我们的红酒列表。当然这些新特性是由旧特性构建的;例如,个新特性可能通过计算年份减去酸度或其它類似的组合得出(我们称之为线性组合

事实上,PCA寻找最佳的可能特性那些可能总结红酒列表的特性中最好的那些(在所有可能的线性组合中)。因此它才这么有用

母亲:嗯,听起来不错但我不确定我理解它了。你说的“总结”红酒列表的新PCA特性具体指什么

你:對于这个问题,我猜我可以给出两个不同的答案第个答案是你寻找些在所有红酒中很不相同的属性(特性)。事实上想象你得到了个對于大多数红酒而言都样的特性。那不会很有用的对不对?红酒和红酒很不样而你的新属性让它们看起来都差不多了!这肯定是个错誤的总结。相反PCA寻找能尽可能体现红酒差异的属性。

第二个答案是你寻找些属性这些属性允许你预测,或者说“重建”原本的红酒特性同样,想象你得出了个和原本的特性没什么关系的属性;如果你仅仅使用这新属性你不可能重建原本的特性!这又将是个不好的总結。所以PCA寻找能够尽可能好地重建原本特性的属性

令人惊讶的是,结果这两个目标是等效的所以PCA可以箭双雕。

配偶:但是亲爱的,這两个PCA的“目标”听起来可不样为什么它们会是等效的?

你:嗯也许我应该画点东西(你拿了张纸巾,然后开始涂鸦)让我们挑选兩个红酒特性,也许是颜色浓淡和酒精含量——我不知道它们是否相关但是让我们想象它们是相关的。不同红酒的散点图可能是这样的:

这片“红酒云”中的每个点代表种特定的红酒你可以看到,两种属性(x轴和y轴)是相关的在这片红酒云的中央画条直线,将所有点投影到这条直线上我们可以构建个新属性。这新属性将由w1x+w2y的线性组合定义每条线对应w1和w2的特定值。

现在看好了——下面是不同的直線上的投影会是怎么样的(红点是蓝点的投影):

正如我之前所说的,PCA会根据两种不同的“最佳”的标准找到“最佳”的直线首先,这條线上的差异应该最大化注意观察当直线旋转的时候,红点是如何“散布”(我们称之为“方差”)的;你能看到它们何时最大化了吗其次,如果我们基于新特性(红点的位置)重建原本的两个特性(蓝点的位置)连接红线的长度将给出重建误差。注意观察当直线旋轉的时候红线的长度是如何改变的;你能看到它们的总长度何时最小化了吗?

如果你凝视上面的动画有会儿的话你会注意到“最大方差”和“最小误差”将同时达到,也就是当直线指向我在红酒云两侧标出的品红色短线时这直线对应于PCA将构建的新红酒属性。

顺便说下PCA代表“主成分分析”(principal component analysis),而这个新属性称为“第主成分”同时,我们通常不说“属性”(property)或“特性”(characteristic)而说“特征”(feature)或“变量”(variable)。

女儿:挺不错的爸爸!我想我知道为什么这两个目标产生样的结果:本质上这是因为勾股定理,不是吗不管怎么说,峩听说PCA多少和本征向量、本征值有点关系;图中它们在哪里呢

你:有才!从数学上说,我们通过每个红点到红酒云中心的均方根距离来衡量红点的散布;正如你所知的这叫做方差。另方面整体的重建误差通过相应的红线的均方根距离来衡量。然而由于红线和黑线间的角度永远是90度两个量之和等于红酒云中心与每个蓝点的均方根距离;这正是勾股定理。当然这些均方跟距离不依赖于黑线的朝向,因此方差越高误差就越低(因为两者之和是常数)。有个以上含糊论证的准确版本

顺便,你可以把黑线想象成硬质杆然后把红线想象荿弹簧。弹簧的势能和它的长度平方成正比(物理学上这称为胡克定律)所以杆将调整自己的朝向以最小化这些平方距离的总和。我做叻个关于它大概是什么样的模拟加上了点摩擦力。

关于本征向量和本征值你知道协方差矩阵吧;在我的例子中它是个2x2的矩阵

这意味着x變量的方差是1.07,而y变量的方差是0.64它们之间的协方差是0.63。由于这是个对称正方矩阵给定它的本征向量,选用个新的直角坐标系可以使其對角化(凑巧的是这称为谱定理)。对角上的值就是对应的本征值在这个新坐标系中,协方差矩阵是对角化的看起来大概是这样:

這意味着,现在点之间的相关性为零很明显,投影的方差将由特征值的加权平均决定(我这里只描写了直觉)因此,选择第组坐标轴仩的投影将达到最大可能方差(1.52)由此得出,第主成分的方向由协方差矩阵的第个本征向量指定()

你也可以在旋转的图像上观察到這点,图像上有条与黑色直线正交的灰色直线;它们起组成了个旋转坐标系试着留意在这旋转坐标系中,何时蓝点变得不相关答案仍嘫是黑色直线指向品红色的短线的时候。现在我可以告诉你我如何找到这两根短线的:它们标记了协方差矩阵的第个本征向量的方向在這个例子中是(0.81, 0.58)

最后附上生成上文中动画的

本文由原作者以 with 许可授权论智编译,如需转载请按许可条款规范转载。

我要回帖

更多关于 r和l 的文章

 

随机推荐