概述
本部分主要介绍了投影和特征值,以及二者的应用。
投影
先看二维简单例子:
设a,b向量为二维空间上的两个非零向量,xb为a在b上的投影,则误差e=a-xb,又b^Te=0,则b^T(a-xb)=0,即b^Ta-xb^Tb=0,$b^Ta$与$b^Tb$均为常数,故$x=\frac {b^Ta} {b^Tb}$
对投影矩阵P,有Pa=bx,得$P=\frac {bb^T} {b^Tb}$
其实,这是a向量在以b为基所构成的空间上的投影,那么a在以基为{b_1,b_2,…,b_n}的空间上的投影又如何呢?
首先明确一点,投影是啥,个人认为,对于a向量,若在空间A中的向量b,有e=a-b,满足e正交于该空间,则b为a在该空间上的投影,且|e|最小。
证明:设c是A空间中不等于b的任意向量,e=a-b,e_2=a-c,m=b-c,则e_2=e+m,其中m在空间A中,故e·m=0,所以|e_2|^{2}=|e|^{2}+|m|^{2},故|e_2|>|e|,也就是说,a与b的欧氏距离是a与空间A中所有向量欧氏距离中最短的。
继续解决上面问题,设A={b_1,b_2,…,b_n},则A列空间中向量为Ax,令e=Ax-a,若Ax为投影向量,则A^Te=0,即A^T(Ax-a)=0,故A^TAx=A^Ta。
这里停一下,有个结论,若A列向量组线性无关,则A^TA是可逆的,因为,对于A^TAx=0可得(Ax)^T(Ax)=0,所以Ax=0,故x只有零解,所以A^TA是可逆的。
所以$x=(A^TA)^{-1}A^Ta$,投影矩阵$P=A(A^TA)^{-1}A^T$。
最小二乘法
最小二乘法是投影的一个典型应用,背景是这样的:
Ax=b,A矩阵有m>>n,且列向量组线性无关,一般而言,x是无解的,我们需要找一个x’,使得Ax’=b’,有|b-b’|最小,其实也就是b,b’的距离最近,怎么做呢?
显然,b’是b在Ax上的投影,故$b’=PA$,$x=(A^TA)^{-1}A^Tb$
用这种方法来处理拟合问题,比如用ax^2+bx+c=y来拟合{(x_1,y_1),(x_2,y_2)…(x_n,y_n)},将数据带入方程中,有X[a \ b \ c]^T=y,仍表示成Ax=b,则A列空间任一向量表示一组[a \ b \ c]所确定的b’向量,当b’为b在Ax上投影时,则有|e|最小,e的每一个分量,表示在该维度上b’与b的差值。
正交矩阵
正交性是一个很重要的性质,首先说一下标准正交基,所谓标准正交基就是指一个基,其满足基中每一个向量模均为1,且两两正交。设其构成矩阵A,则A^TA=I。若A为方阵,则此时A为正交矩阵,我们用Q表示。正交矩阵满足Q^TQ=I,所以Q^{-1}=Q^T。
特征值与特征向量
对于特征值和特征向量,我们先给定义:若对于方阵A存在不为零向量的x,使得Ax=\lambda x,则称x为特征向量,\lambda为特征值。
先看一下求解特征值的方法:(A-\lambda I)x=0,x有非零解,即是(A-\lambda I)是奇异的,故|A-\lambda I|=0,由此解出\lambda值和x值。
方程解有多种情况,特征值可能是实数、复数,也有可能是重根,线性无关的特征向量数量可能与矩阵阶数相同,也可能比其少。对于大部分而言,线性无关的特征向量数是与矩阵阶数相同的,对于其他的,称为退化矩阵,这里略过。
对角化
在有了特征值的概念之后,我们可以利用特征值做这样一个事情:
$A$为n阶矩阵,将$A$的n个线性无关特征向量构成矩阵$S$,则$AS=S\Lambda$,其中$\Lambda$为特征向量所对应的特征值所构成的对角阵。
简单验证可以很容易发现该式是成立的,由于S为方阵,且列向量是线性无关的,所以S可逆。于是这个等式,可以有两种解读方式:
- $\Lambda =S^{-1}AS$:可以看成这是对$A$的一种操作,能使其成为对角矩阵,故该过程称为矩阵的对角化。
-
$A=S\Lambda S^{-1}$:可以看成这是对$A$的一种分解,使其能让这就意味着我们可以求解矩阵的幂:$A^{n}=S\Lambda ^{n}S^{-1}$。
对角化的应用
PCA其实就是对角化的一个应用,简要记下:
特征向量矩阵Y为m*n,一般而言n>>m,先将Y的每个维度上的值减去该维度上的均值,得到A,则协方差矩阵R=AA^{T},协方差矩阵上的对角线上是每维的方差,其余部分为所在两维上的数据的协方差。
我们希望找到一个正交基Q,使得Y中的列向量变换到该基上时,得到的新特征向量矩阵的协方差矩阵是对角矩阵,为啥呢?
因为协方差反映出了变量之间的相关性,我们希望变换到基Q上时,各维度间相互独立,这就好比,在自然基上的一条直线(与x,y不重合),那么直线上的点的两个维度是相关非常密切的,而当我们选择的新基的一个维度就是该直线的方向,那么第二个维度就完全为0,也就与前一个维度相互独立了。
继续推导,基变换一下,在Q上的坐标为
M=Q^TA,
R_2=MM^T,
R_2=Q^TAA^TQ=Q^TRQ
所以Q^T其实就是R的特征向量构成的正交矩阵。
矩阵幂的应用
典型应用之解差分方程:
已知u_0,由u_{k+1}=Au_{k}得u_n=A^nu_0,其中A=S\Lambda S^{-1},
故A=S\Lambda ^nS^{-1},又u_0=Sc,所以u_n=S(\Lambda ^nc)=\lambda_1 ^nc_1x_1+\lambda_2 ^nc_2x_2+…
其中x_1,\lambda_1为特征向量和特征值。
差分方程是一工具性应用,当解决具体问题时,可构造差分方程,然后求解。