MIT线性代数课程总结与理解-第二部分

概述

本部分主要介绍了投影和特征值，以及二者的应用。

投影

先看二维简单例子：
设$a,b$向量为二维空间上的两个非零向量，$xb$为$a$在$b$上的投影，则误差$e=a-xb$，又$b^Te=0$，则$b^T(a-xb)=0$，即$b^Ta-xb^Tb=0$，$b^Ta$与$b^Tb$均为常数，故$x=\frac {b^Ta} {b^Tb}$
对投影矩阵$P$，有$Pa=bx$，得$P=\frac {bb^T} {b^Tb}$

其实，这是$a$向量在以$b$为基所构成的空间上的投影，那么$a$在以基为${b_1,b_2,…,b_n}$的空间上的投影又如何呢？
首先明确一点，投影是啥，个人认为，对于$a$向量，若在空间A中的向量$b$，有$e=a-b$，满足e正交于该空间，则$b$为a在该空间上的投影，且|e|最小。
证明：设c是A空间中不等于$b$的任意向量，$e=a-b,e_2=a-c，m=b-c,则e_2=e+m$，其中m在空间A中，故$e·m=0$，所以$|e_2|^{2}=|e|^{2}+|m|^{2}，故|e_2|>|e|$，也就是说，$a$与$b$的欧氏距离是$a$与空间$A$中所有向量欧氏距离中最短的。
继续解决上面问题，设$A={b_1,b_2,…,b_n}$，则A列空间中向量为$Ax$，令$e=Ax-a$，若$Ax$为投影向量，则$A^Te=0$，即$A^T(Ax-a)=0$，故$A^TAx=A^Ta$。
这里停一下，有个结论，若A列向量组线性无关，则$A^TA$是可逆的，因为，对于$A^TAx=0$可得$(Ax)^T(Ax)=0$,所以$Ax=0$,故$x$只有零解，所以$A^TA$是可逆的。
所以$x=(A^TA)^{-1}A^Ta$，投影矩阵$P=A(A^TA)^{-1}A^T$。

最小二乘法

最小二乘法是投影的一个典型应用，背景是这样的：
$Ax=b,A$矩阵有$m>>n$，且列向量组线性无关，一般而言，$x$是无解的，我们需要找一个$x’$，使得$Ax’=b’$，有$|b-b’|$最小，其实也就是$b，b’$的距离最近，怎么做呢？
显然，$b’$是$b$在$Ax$上的投影，故$b’=PA$，$x=(A^TA)^{-1}A^Tb$
用这种方法来处理拟合问题，比如用$ax^2+bx+c=y$来拟合${(x_1,y_1),(x_2,y_2)…(x_n,y_n)}$，将数据带入方程中，有$X[a \ b \ c]^T=y$,仍表示成$Ax=b$,则$A$列空间任一向量表示一组$[a \ b \ c]$所确定的$b’$向量，当$b’$为$b$在$Ax$上投影时，则有$|e|$最小，$e$的每一个分量，表示在该维度上$b’$与$b$的差值。

正交矩阵

正交性是一个很重要的性质，首先说一下标准正交基，所谓标准正交基就是指一个基，其满足基中每一个向量模均为1，且两两正交。设其构成矩阵$A$，则$A^TA=I$。若A为方阵，则此时A为正交矩阵，我们用Q表示。正交矩阵满足$Q^TQ=I$，所以$Q^{-1}=Q^T$。

特征值与特征向量

对于特征值和特征向量，我们先给定义：若对于方阵$A$存在不为零向量的$x$,使得$Ax=\lambda x$，则称$x$为特征向量，$\lambda$为特征值。
先看一下求解特征值的方法：$(A-\lambda I)x=0$，$x$有非零解，即是$(A-\lambda I)$是奇异的，故$|A-\lambda I|$=0，由此解出$\lambda$值和$x$值。
方程解有多种情况，特征值可能是实数、复数，也有可能是重根，线性无关的特征向量数量可能与矩阵阶数相同，也可能比其少。对于大部分而言，线性无关的特征向量数是与矩阵阶数相同的，对于其他的，称为退化矩阵，这里略过。

对角化

在有了特征值的概念之后，我们可以利用特征值做这样一个事情:
$A$为n阶矩阵，将$A$的n个线性无关特征向量构成矩阵$S$，则$AS=S\Lambda$,其中$\Lambda$为特征向量所对应的特征值所构成的对角阵。
简单验证可以很容易发现该式是成立的，由于$S$为方阵，且列向量是线性无关的，所以$S$可逆。于是这个等式，可以有两种解读方式：

$\Lambda =S^{-1}AS$：可以看成这是对$A$的一种操作，能使其成为对角矩阵，故该过程称为矩阵的对角化。
$A=S\Lambda S^{-1}$：可以看成这是对$A$的一种分解，使其能让这就意味着我们可以求解矩阵的幂：$A^{n}=S\Lambda ^{n}S^{-1}$。

对角化的应用

PCA其实就是对角化的一个应用，简要记下：
特征向量矩阵$Y$为$m*n$，一般而言$n>>m$，先将$Y$的每个维度上的值减去该维度上的均值，得到$A$，则协方差矩阵$R=AA^{T}$，协方差矩阵上的对角线上是每维的方差，其余部分为所在两维上的数据的协方差。
我们希望找到一个正交基Q，使得$Y$中的列向量变换到该基上时，得到的新特征向量矩阵的协方差矩阵是对角矩阵，为啥呢？
因为协方差反映出了变量之间的相关性，我们希望变换到基Q上时，各维度间相互独立，这就好比，在自然基上的一条直线（与x,y不重合），那么直线上的点的两个维度是相关非常密切的，而当我们选择的新基的一个维度就是该直线的方向，那么第二个维度就完全为0，也就与前一个维度相互独立了。
继续推导，基变换一下，在Q上的坐标为
$M=Q^TA$,
$R_2=MM^T$,
$R_2=Q^TAA^TQ=Q^TRQ$
所以$Q^T$其实就是R的特征向量构成的正交矩阵。

矩阵幂的应用

典型应用之解差分方程:
已知$u_0$，由$u_{k+1}=Au_{k}$得$u_n=A^nu_0$，其中$A=S\Lambda S^{-1}$，
故$A=S\Lambda ^nS^{-1}$，又$u_0=Sc$，所以$u_n=S(\Lambda ^nc)=\lambda_1 ^nc_1x_1+\lambda_2 ^nc_2x_2+…$
其中$x_1,\lambda_1$为特征向量和特征值。
差分方程是一工具性应用，当解决具体问题时，可构造差分方程，然后求解。

友情链接

概述

投影

最小二乘法

正交矩阵

特征值与特征向量

对角化

对角化的应用

矩阵幂的应用

发送评论编辑评论

概述

投影

最小二乘法

正交矩阵

特征值与特征向量

对角化

对角化的应用

矩阵幂的应用

发送评论 编辑评论

推荐文章

发送评论编辑评论