概述
本部分主要介绍了投影和特征值,以及二者的应用。
投影
先看二维简单例子:
设$a,b$向量为二维空间上的两个非零向量,$xb$为$a$在$b$上的投影,则误差$e=a-xb$,又$b^Te=0$,则$b^T(a-xb)=0$,即$b^Ta-xb^Tb=0$,$b^Ta$与$b^Tb$均为常数,故$x=\frac {b^Ta} {b^Tb}$
对投影矩阵$P$,有$Pa=bx$,得$P=\frac {bb^T} {b^Tb}$
其实,这是$a$向量在以$b$为基所构成的空间上的投影,那么$a$在以基为${b_1,b_2,…,b_n}$的空间上的投影又如何呢?
首先明确一点,投影是啥,个人认为,对于$a$向量,若在空间A中的向量$b$,有$e=a-b$,满足e正交于该空间,则$b$为a在该空间上的投影,且|e|最小。
证明:设c是A空间中不等于$b$的任意向量,$e=a-b,e_2=a-c,m=b-c,则e_2=e+m$,其中m在空间A中,故$e·m=0$,所以$|e_2|^{2}=|e|^{2}+|m|^{2},故|e_2|>|e|$,也就是说,$a$与$b$的欧氏距离是$a$与空间$A$中所有向量欧氏距离中最短的。
继续解决上面问题,设$A={b_1,b_2,…,b_n}$,则A列空间中向量为$Ax$,令$e=Ax-a$,若$Ax$为投影向量,则$A^Te=0$,即$A^T(Ax-a)=0$,故$A^TAx=A^Ta$。
这里停一下,有个结论,若A列向量组线性无关,则$A^TA$是可逆的,因为,对于$A^TAx=0$可得$(Ax)^T(Ax)=0$,所以$Ax=0$,故$x$只有零解,所以$A^TA$是可逆的。
所以$x=(A^TA)^{-1}A^Ta$,投影矩阵$P=A(A^TA)^{-1}A^T$。
最小二乘法
最小二乘法是投影的一个典型应用,背景是这样的:
$Ax=b,A$矩阵有$m>>n$,且列向量组线性无关,一般而言,$x$是无解的,我们需要找一个$x’$,使得$Ax’=b’$,有$|b-b’|$最小,其实也就是$b,b’$的距离最近,怎么做呢?
显然,$b’$是$b$在$Ax$上的投影,故$b’=PA$,$x=(A^TA)^{-1}A^Tb$
用这种方法来处理拟合问题,比如用$ax^2+bx+c=y$来拟合${(x_1,y_1),(x_2,y_2)…(x_n,y_n)}$,将数据带入方程中,有$X[a \ b \ c]^T=y$,仍表示成$Ax=b$,则$A$列空间任一向量表示一组$[a \ b \ c]$所确定的$b’$向量,当$b’$为$b$在$Ax$上投影时,则有$|e|$最小,$e$的每一个分量,表示在该维度上$b’$与$b$的差值。
正交矩阵
正交性是一个很重要的性质,首先说一下标准正交基,所谓标准正交基就是指一个基,其满足基中每一个向量模均为1,且两两正交。设其构成矩阵$A$,则$A^TA=I$。若A为方阵,则此时A为正交矩阵,我们用Q表示。正交矩阵满足$Q^TQ=I$,所以$Q^{-1}=Q^T$。
特征值与特征向量
对于特征值和特征向量,我们先给定义:若对于方阵$A$存在不为零向量的$x$,使得$Ax=\lambda x$,则称$x$为特征向量,$\lambda$为特征值。
先看一下求解特征值的方法:$(A-\lambda I)x=0$,$x$有非零解,即是$(A-\lambda I)$是奇异的,故$|A-\lambda I|$=0,由此解出$\lambda$值和$x$值。
方程解有多种情况,特征值可能是实数、复数,也有可能是重根,线性无关的特征向量数量可能与矩阵阶数相同,也可能比其少。对于大部分而言,线性无关的特征向量数是与矩阵阶数相同的,对于其他的,称为退化矩阵,这里略过。
对角化
在有了特征值的概念之后,我们可以利用特征值做这样一个事情:
$A$为n阶矩阵,将$A$的n个线性无关特征向量构成矩阵$S$,则$AS=S\Lambda$,其中$\Lambda$为特征向量所对应的特征值所构成的对角阵。
简单验证可以很容易发现该式是成立的,由于$S$为方阵,且列向量是线性无关的,所以$S$可逆。于是这个等式,可以有两种解读方式:
- $\Lambda =S^{-1}AS$:可以看成这是对$A$的一种操作,能使其成为对角矩阵,故该过程称为矩阵的对角化。
-
$A=S\Lambda S^{-1}$:可以看成这是对$A$的一种分解,使其能让这就意味着我们可以求解矩阵的幂:$A^{n}=S\Lambda ^{n}S^{-1}$。
对角化的应用
PCA其实就是对角化的一个应用,简要记下:
特征向量矩阵$Y$为$m*n$,一般而言$n>>m$,先将$Y$的每个维度上的值减去该维度上的均值,得到$A$,则协方差矩阵$R=AA^{T}$,协方差矩阵上的对角线上是每维的方差,其余部分为所在两维上的数据的协方差。
我们希望找到一个正交基Q,使得$Y$中的列向量变换到该基上时,得到的新特征向量矩阵的协方差矩阵是对角矩阵,为啥呢?
因为协方差反映出了变量之间的相关性,我们希望变换到基Q上时,各维度间相互独立,这就好比,在自然基上的一条直线(与x,y不重合),那么直线上的点的两个维度是相关非常密切的,而当我们选择的新基的一个维度就是该直线的方向,那么第二个维度就完全为0,也就与前一个维度相互独立了。
继续推导,基变换一下,在Q上的坐标为
$M=Q^TA$,
$R_2=MM^T$,
$R_2=Q^TAA^TQ=Q^TRQ$
所以$Q^T$其实就是R的特征向量构成的正交矩阵。
矩阵幂的应用
典型应用之解差分方程:
已知$u_0$,由$u_{k+1}=Au_{k}$得$u_n=A^nu_0$,其中$A=S\Lambda S^{-1}$,
故$A=S\Lambda ^nS^{-1}$,又$u_0=Sc$,所以$u_n=S(\Lambda ^nc)=\lambda_1 ^nc_1x_1+\lambda_2 ^nc_2x_2+…$
其中$x_1,\lambda_1$为特征向量和特征值。
差分方程是一工具性应用,当解决具体问题时,可构造差分方程,然后求解。