MIT线性代数课程 总结与理解-第三部分
对称矩阵
关于对称矩阵,这里个人认为需要掌握两个结论:
- n×n对称矩阵存在n个正交的特征向量
- 实对称矩阵的特征值也是实数
所以若 A=A^T,则A可进行特征值分解为A=Q\Lambda Q^T,Q为正交矩阵
如果实对称矩阵的特征值为正数,则该矩阵为正定矩阵
正定矩阵满足以下性质:
- 特征值均为正数
- 所有子行列式为正数
- 主元为正数(本条保留疑问,因为主元的值似乎可以任意改变)
本节个人认为掌握这些就够用了,若以后需要其他,再进行补充,包括相似矩阵,若尓当型等
奇异值分解(SVD)
奇异值分解是一种相当重要的分解,也是一种很完美的分解,可对任意形状的矩阵进行分解。
设{v_1,v_2,v_3….v_r}为A行空间的一组标准正交基,{u_1,u_2,u_3…u_r}为A的一组列空间向量,有Av_x=u_x,将u_x规范化有Av_x=\sigma _xu_x,整合有Av=u\Sigma,
这里有个结论,就是我们能够找到u也为列空间的一组正交基,至于为什么能够找到,暂且不明。于是有\Sigma为伸缩比例的对角阵,这里
A:m×n,v=n×r,u=m×r,\Sigma=r×r
为了方便分解,我们在v中右边填充零空间的一组标准基,u中右填充左零空间的一组标准基,则\Sigma相应位置填充零向量。
则有 {v_1,v_2,v_3….v_r,v_{r+1}….v_n},{u_1,u_2,u_3….u_r,u_{r+1}….u_m},则有AV=U\Sigma,这里有
A:m×n,V:n×n,U=m×m,\Sigma=m×n
其中V,U为正交矩阵,\Sigma为对角阵,进一步有
A=U\Sigma V^T
这就是矩阵的奇异值分解。
从分解过程可以看出,U,V并非唯一的,这也是奇异值分解仅仅指定了形式,而数值并非确定。
那么如何来求解U,V呢?
这里有
- $A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^2V^T$
- $AA^T=U\Sigma V^TV\Sigma ^TU^T=U(\Sigma ^T)^2U^T$
所以V是A^TA的一个特征向量组,U是AA^T的一个特征向量组,而特征值为\Sigma ^2,一般而言我们取\Sigma的正值。
这里需要思考一个问题了,上面其实从两个角度上来说明了U,V,\Sigma的含义
角度1
U={u_1,u_2…u_r,u_{r+1}…u_n},V={v_1,v_2…v_r,v_{r+1}…v_m}
{v_1…v_r}为行空间的一组正交向量, {v_r+1…v_n}为零空间的一组正交向量,显然二者是正交的;
{u_1…u_r}为列空间的一组正交向量, {u_r+1…u_m}为左零空间的一组正交向量,显然二者是正交的;
\Sigma为伸缩因子
角度2
- $A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^2V^T$
- $AA^T=U\Sigma V^TV\Sigma ^TU^T=U(\Sigma ^T)^2U^T$
U是AA^T的一个特征向量组,V是A^TA的一个特征向量组,\Sigma ^2为对应特征值矩阵。
两个角度的联系
按照上面的推导过程,V右部分是A零空间中任意找一组正交的向量,那么这里的V又是A^TA的一个特征向量组,难道特征向量也可以任意吗?
答案是,对,V的确是A^TA的特征向量组,但是对于上面所说的V右边的A的零空间向量正好对应于A^TA的特征值为零的特征向量,所以在A^TA对角化的过程中,对于0特征值所对应的特征向量就是任意选取的一组正交向量。
那么如何保证选取的A^TA特征值为零的特征向量也是A的零向量,或者说选取的A的零空间向量也是A^TA的特征值为零的特征向量呢?
这里先证一个结论:
A^TAx=0\Leftrightarrow Ax=0\Rightarrow A^TA与A的零空间相同\Rightarrow A^TA与A的零,行空间相同
充分性:A^TAx=0\Rightarrow x^TA^TAx=0\Rightarrow(Ax)^2=0\Rightarrow Ax=0
必要性:Ax=0\Rightarrow A^TAx=0
另外还有易得结论:
方阵的零空间向量都是方阵的特征值为零的特征向量,或者说方阵的特征值为零的特征向量都在方阵的零空间内,双方充要,因为Ax=0 \Leftrightarrow Ax=0x
由上面可得:
充分性说明了选取的A^TA特征值为零的特征向量在A的零空间内
必要性说明了选取的A的零空间向量是A^TA的特征值为零的特征向量
另外还有个小问题,A^TA的特征值不为零的特征向量,为什么一定在A的行空间内呢?
这就很容易回答了,因为A^TA的特征值不为零的特征向量在A^TA的行空间内(行零空间互补),也即是A的行空间内。
线性变换
首先我们得知道线性变换为何物,
定义T为一种变换,若对输入向量有
- $T(\alpha w)=\alpha T(w)$
- $T(w+v)=T(w)+T(v)$
- $T(\alpha w+\beta v)=\alpha T(w)+\beta T(v)$(由前二者可得)
则T称为线性变换。比如旋转,投影就是线性变换。
这里有一个结论了,任意一个线性变换都可以用矩阵来表示,任意一个矩阵都意味着一个线性变换,那么我们就得来了解二者兼得关系了。
由线性变换确定矩阵
- $T(v_1)=w_1$
- $T(v_2)=w_2$
所以线性变换确定的矩阵就为
\begin{bmatrix}
1&0 \\
0&1
\end{bmatrix}
由此可见线性变换确定的矩阵是与输入输出基相关的。
由矩阵确定线性变换
理解了线性变换确定矩阵的过程,再看由矩阵确定线性变换就比较容易了,矩阵的每个列向量,代表输入空间的基由输出空间基表示的系数,如果,二者均采用自然基,那么,矩阵就将输入向量变换到列空间中,理解整个空间变换时,可参考B站的线代视频所讲的网格法。
基变换
基变换是指,一个向量从一组基变换到另一个基上时的新坐标,这里其实有个问题,应该说,基本身一般是采用的自然基,所以我们就可以先把原向量变换为自然基,然后再变到新的基上:
Wx=Vc,其中W为旧基,x为原坐标,V为新基,c为新坐标
特殊地,若W为自然基,则有x=Vc。
后记
总算把线代的大部分知识总结完了,其中也漏了不少目前还没用到的知识,等用到时,再加以补充吧。
2017.7.24
本文链接:
http://rainlin.top/archives/48
转载请注明转载自: Rainlin Home