对称矩阵
关于对称矩阵,这里个人认为需要掌握两个结论:
- n×n对称矩阵存在n个正交的特征向量
- 实对称矩阵的特征值也是实数
所以若 $A=A^T$,则$A$可进行特征值分解为$A=Q\Lambda Q^T$,$Q$为正交矩阵
如果实对称矩阵的特征值为正数,则该矩阵为正定矩阵
正定矩阵满足以下性质:
- 特征值均为正数
- 所有子行列式为正数
- 主元为正数(本条保留疑问,因为主元的值似乎可以任意改变)
本节个人认为掌握这些就够用了,若以后需要其他,再进行补充,包括相似矩阵,若尓当型等
奇异值分解(SVD)
奇异值分解是一种相当重要的分解,也是一种很完美的分解,可对任意形状的矩阵进行分解。
设${v_1,v_2,v_3….v_r}$为$A$行空间的一组标准正交基,${u_1,u_2,u_3…u_r}$为$A$的一组列空间向量,有$Av_x=u_x$,将$u_x$规范化有$Av_x=\sigma _xu_x$,整合有$Av=u\Sigma$,
这里有个结论,就是我们能够找到$u$也为列空间的一组正交基,至于为什么能够找到,暂且不明。于是有$\Sigma$为伸缩比例的对角阵,这里
$A:m×n,v=n×r,u=m×r,\Sigma=r×r$
为了方便分解,我们在$v$中右边填充零空间的一组标准基,$u$中右填充左零空间的一组标准基,则$\Sigma$相应位置填充零向量。
则有 ${v_1,v_2,v_3….v_r,v_{r+1}….v_n},{u_1,u_2,u_3….u_r,u_{r+1}….u_m}$,则有$AV=U\Sigma$,这里有
$A:m×n,V:n×n,U=m×m,\Sigma=m×n$
其中$V,U$为正交矩阵,$\Sigma$为对角阵,进一步有
$A=U\Sigma V^T$
这就是矩阵的奇异值分解。
从分解过程可以看出,$U,V$并非唯一的,这也是奇异值分解仅仅指定了形式,而数值并非确定。
那么如何来求解$U,V$呢?
这里有
* $A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^2V^T$
* $AA^T=U\Sigma V^TV\Sigma ^TU^T=U(\Sigma ^T)^2U^T$
所以$V$是$A^TA$的一个特征向量组,$U$是$AA^T$的一个特征向量组,而特征值为$\Sigma ^2$,一般而言我们取$\Sigma$的正值。
这里需要思考一个问题了,上面其实从两个角度上来说明了$U,V,\Sigma$的含义
角度1
$U={u_1,u_2…u_r,u_{r+1}…u_n},V={v_1,v_2…v_r,v_{r+1}…v_m}$
${v_1…v_r}$为行空间的一组正交向量, ${v_r+1…v_n}$为零空间的一组正交向量,显然二者是正交的;
${u_1…u_r}$为列空间的一组正交向量, ${u_r+1…u_m}$为左零空间的一组正交向量,显然二者是正交的;
$\Sigma$为伸缩因子
角度2
- $A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^2V^T$
- $AA^T=U\Sigma V^TV\Sigma ^TU^T=U(\Sigma ^T)^2U^T$
$U$是$AA^T$的一个特征向量组,$V$是$A^TA$的一个特征向量组,$\Sigma ^2$为对应特征值矩阵。
两个角度的联系
按照上面的推导过程,$V$右部分是$A$零空间中任意找一组正交的向量,那么这里的$V$又是$A^TA$的一个特征向量组,难道特征向量也可以任意吗?
答案是,对,$V$的确是$A^TA$的特征向量组,但是对于上面所说的$V$右边的$A$的零空间向量正好对应于$A^TA$的特征值为零的特征向量,所以在$A^TA$对角化的过程中,对于0特征值所对应的特征向量就是任意选取的一组正交向量。
那么如何保证选取的$A^TA$特征值为零的特征向量也是$A$的零向量,或者说选取的$A$的零空间向量也是$A^TA$的特征值为零的特征向量呢?
这里先证一个结论:
$A^TAx=0\Leftrightarrow Ax=0\Rightarrow A^TA$与$A$的零空间相同$\Rightarrow A^TA$与$A$的零,行空间相同
充分性:$A^TAx=0\Rightarrow x^TA^TAx=0\Rightarrow(Ax)^2=0\Rightarrow Ax=0$
必要性:$Ax=0\Rightarrow A^TAx=0$
另外还有易得结论:
方阵的零空间向量都是方阵的特征值为零的特征向量,或者说方阵的特征值为零的特征向量都在方阵的零空间内,双方充要,因为$Ax=0 \Leftrightarrow Ax=0x$
由上面可得:
充分性说明了选取的$A^TA$特征值为零的特征向量在$A$的零空间内
必要性说明了选取的$A$的零空间向量是$A^TA$的特征值为零的特征向量
另外还有个小问题,$A^TA$的特征值不为零的特征向量,为什么一定在$A$的行空间内呢?
这就很容易回答了,因为$A^TA$的特征值不为零的特征向量在$A^TA$的行空间内(行零空间互补),也即是$A$的行空间内。
线性变换
首先我们得知道线性变换为何物,
定义$T$为一种变换,若对输入向量有
- $T(\alpha w)=\alpha T(w)$
- $T(w+v)=T(w)+T(v)$
- $T(\alpha w+\beta v)=\alpha T(w)+\beta T(v)$(由前二者可得)
则$T$称为线性变换。比如旋转,投影就是线性变换。
这里有一个结论了,任意一个线性变换都可以用矩阵来表示,任意一个矩阵都意味着一个线性变换,那么我们就得来了解二者兼得关系了。
由线性变换确定矩阵
要由线性变换确定矩阵,得先给定三个东西:输入空间基,输出空间基,线性变换。
设定输入空间基为${v_1,v_2….v_n}$,输出空间基为${w_1,w_2….w_m}$
则我们可以得到$T(v_1)=a_1w_1+a_2w_2+…+a_nw_n$
将该系数作为向量,构成矩阵的一个列向量,依次确定,则构成整个矩阵,该矩阵则为线性变换确定的矩阵。
举个例子,就拿逆时针旋转45度来说,有输入空间基为自然基,输出空间基为自然基,则:
$T(v_1)=\frac{\sqrt{2}}{2}w_1+\frac{\sqrt{2}}{2}w_2$
$T(v_2)=-\frac{\sqrt{2}}{2}w_1+\frac{\sqrt{2}}{2}w_2$
所以矩阵为
$\begin{bmatrix}\frac{\sqrt{2}}{2}&-\frac{\sqrt{2}}{2} \ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}\end{bmatrix}$
问题就来了,为什么能够这样呢?
这是因为,当把输入空间的基作为输入向量时,输出的向量就是输入空间基在输出空间对应的向量,输入空间的向量由基表示,那么找到了输入空间基在输出空间对应的向量,也就可以将输入空间变换到了输出空间。
这里有个提示,关于基的选择,坐标是根据基来确定的,当在进行线性变换时,变换两边的坐标一定是由输入,输出空间的基来确定的,比如,同样上面的例子,我们输入选择自然基,输出空间选择
$\begin{bmatrix}\frac{\sqrt{2}}{2}\ \frac{\sqrt{2}}{2}\end{bmatrix}$$\begin{bmatrix}- \frac{\sqrt{2}}{2}\ \frac{\sqrt{2}}{2} \end{bmatrix}$
作为基,那么
- $T(v_1)=w_1$
- $T(v_2)=w_2$
所以线性变换确定的矩阵就为
$
\begin{bmatrix}
1 & 0 \\
0 & 1
\end{bmatrix}
$
由此可见线性变换确定的矩阵是与输入输出基相关的。
由矩阵确定线性变换
理解了线性变换确定矩阵的过程,再看由矩阵确定线性变换就比较容易了,矩阵的每个列向量,代表输入空间的基由输出空间基表示的系数,如果,二者均采用自然基,那么,矩阵就将输入向量变换到列空间中,理解整个空间变换时,可参考B站的线代视频所讲的网格法。
基变换
基变换是指,一个向量从一组基变换到另一个基上时的新坐标,这里其实有个问题,应该说,基本身一般是采用的自然基,所以我们就可以先把原向量变换为自然基,然后再变到新的基上:
$Wx=Vc$,其中$W$为旧基,$x$为原坐标,$V$为新基,$c$为新坐标
特殊地,若$W$为自然基,则有$x=Vc$。
后记
总算把线代的大部分知识总结完了,其中也漏了不少目前还没用到的知识,等用到时,再加以补充吧。
2017.7.24