线性代数 | 正交向量 子空间投影

子空间投影是理解正交的重要途径,后者又是整个线性代数的核心概念之一。投影也可以帮助我们更深入的理解优化过程。本章的核心概念就是投影,这是以前被我忽视的重要章节。

正交向量

正交

正交是垂直的另一个说法,一般指在n维空间里垂直。其数学表达式可记为向量x和向量y的点乘等于$x^Ty=0$。

证明:x向量的模的平方,即边长的平方是$x^Tx$。则由勾股定理

解之得$x^Ty=0$,得证。

子空间正交

设两个子空间S和T正交,则S中每个向量s和T中每个向量t都正交。

引申1
零向量与任何向量都相交。证略。

引申2
如果两个空间在某个向量处相交,那么这两个子空间一定不正交(除非这个相交向量是零向量。

引申3
行空间正交于零空间。它们的秩,将一个空间分成两个相互正交的子空间(回顾上一篇)。
证明:$Ax = 0$。考虑矩阵乘法的行列相乘的运算法则,则可得正交关系。对于行空间里存在着的线性组合,通过简单的运算也可以证明正交。

引申4
在三维空间里,一条过原点直线和另一条过原点直线。不能组成零空间和行空间。
证明:行空间和零空间的维数和起来应该是三维的。

引申5
正交有自己的几何意义,可以按照三维空间构建自己对几何意义的直觉。
行空间和零空间互相是对方的的正交补。行空间的正交补,包含所有与它垂直的向量,而不是部分。这也就是说,此时的零空间包含了全部与它正交的向量,而不止是部分。

求解一个无解方程组的解

本章的核心问题:如何求一个无解方程组$Ax = b$(当A是长方矩阵时,比如m>n,方程个数大于变量个数)的解。

这种形式有很多实际应用,比如测量,每一行数据可以当做一条测量记录,一共有m次测量。实际计算时可以不断去除方程,对应为去除坏的测量数据等,直到剩下一个可逆矩阵,但这种方法不完美,因为我们较难判断数据的好坏,因此倾向于使用所有的数据。

通过一个简单的变换。$A^TAx = A^Tb$,坏方程会变成好方程,会变成可解的方程。注意解发生了改变,原先方程组可能是无解的,现在有解了。

需要注意的是$A^TA$是一个方阵,也是对称阵,但不一定是可逆的,一般有$rank(A^TA)=rank(A)$。(比如两个秩1矩阵相乘,得到的还是秩1矩阵).当A的零空间有且仅有零向量时,即A的各列线性无关时,$A^TA$才是可逆的。

对该做法的解释会在下一节。

子空间投影

在原学习视频上,这一节被称为可名留青史的一节课。所谓投影,就是找到在某个标准上的最近点,这个最近是广义上的最近,泛指最符合标准,误差最小等。这里蕴含着一种最优化的思想。

二维投影举例

下面以向量b在向量a上投影举例,示意图如下。

其中向量E为误差向量,其与向量a垂直;向量p是投影向量,假设$p=xa$,$x$为一标量参数;P代表着最终的投影矩阵。

整理一下投影问题,求投影p本质是求一个投影矩阵作用于指定的向量。在当前例子里,投影矩阵是P,向量是b。$p = Pb$ 。如果a是n维,那么根据P的求法所示:P是一个$n*n$的矩阵。

投影矩阵P的性质
  • P的列空间是过a的直线,因为$Pb=p$,对P矩阵中列的组合落在了直线a上。
  • 投影矩阵是秩1矩阵。$aa^T$是一列乘以一行的形式,因而是秩1矩阵。
  • P是对称矩阵。$P^T = P$
  • $P^n = P$ 证明: 想象进行多次投影,它的结果和进行一次投影的结果没有差别。
对投影的深入理解

我们依然从$Ax = b$入手理解,它可能无解,所以要找到最相似的解。</font color=blue>问题的矛盾在于向量Ax总在A的列空间里,但是b不一定在A的列空间里,所以需要微调b,让它尽量满足这个情况。因此取 $A\hat{x}=p$,p是b在A的列空间上的投影。</font>之所以选投影,是因为投影是能满足要求的”误差”最小的。

接下来看三维空间的例子,把向量p投影在平面上。(之后可以推广到n维)

平面用两个向量$a_1$和$a_2$生成,它是由这两个向量分别作为列生成的矩阵的列空间A。接下来让b在A上投影,如果向量b就在平面A上面(在列空间里),那么不用做特殊处理。若b不在A平面上,就要有一个误差向量$e=(b-p)$来解决问题,目标就是找到那个最接近b的p。

误差向量e垂直于平面A,投影p是基向量的组合。即$e=b-p$ $e\bot A$ $p=Ax$,求出x,就是求出投影向量p在A平面上合适的列组合。根据$e\bot a_1$ $e\bot a_2$可得到两个方程,解方程就可以求出x的两个分量。推导过程如下

这个结果和二维的结果及其相似,关注以下几个点

  • 由于$A^TA$是n维矩阵,所以不采用除法,而采用逆的计算。请记住二维和n维的结论。
  • $(A^TA)^{-1}$不能展开,因为A不一定是可逆矩阵。
  • 如果A是一个n*n可逆矩阵,那么其列空间就是整个n维空间。向量在内部投影就是向量本身,投影矩阵是单位阵。
  • 思考$Pb=0$的逻辑,b的投影是0,说明b垂直于A的列空间,说明b是$A^T$的零空间,即$A^Tb=0$,则$Pb=A(A^TA)^{-1}A^Tb=0$
  • 如此再观察b的投影,其可以分别投影到A的列空间和$A^T$的零空间,即A的左零空间中,投影矩阵分别是P和I-p。

    投影矩阵和最小二乘法

    最小二乘法是极其重要的。下面来举一个简单例子,在二维平面上有一些点,现在想寻找能拟合这些点的最优直线。这个“最优”其实就可以理解为误差最小,最小二乘法把这个误差定义为原始点到拟合直线上相应点的误差的平方和。
    这是最小二乘法的核心,通过乘以一个A的转置得到了可解的情况。需要注意的是,只有当A各列线性无关时,$A^TA$才是可逆的,证明如下。

    令$A^TAx=0$,进行一个小的技巧变换,可得$x^TA^TAx=0 \rightarrow (Ax)^TAx=0$, 根据长度和模的概念有,$Ax=0$,又因为A的各列线性无关,所以x只可能是零向量,则$A^TA$是可逆的。

关于最小二乘法的扩展有非常多的资料,这就不在本书的讨论范围内了。(这一节理论上有很多内容,但是我讲不清楚,这也许是因为我这节本学的就不清楚)

0%