最小二乘

一维拟合

直线上有 个点 ,在直线上再找一个点 来代表这 个点,使得误差最小

一般认为就应该找这 个点的样本均值了,但为啥呢?取样本均值使得怎样的误差函数取到了最小值呢?

如果定义误差函数为 ,则

可知此时 有最小值

当然,如果从大数定律出发,样本均值自然是一阶期望的无偏估计量

直线拟合

     ▲
     │                                                       x        ┌────┘
     │                                                           ┌────┘
     │                                                      ┌────┘
     │                                                 ┌────┘
     │               x                            ┌────┘
     │                                       ┌────┘
     │                                  ┌────┘
     │                             ┌────┘                                
     │                        ┌────┘       x                        
     │                   ┌────┘                                
     │              ┌────┘                                
     │         ┌────┘                                                                
     │    ┌────┘                                                                
     ┌────┘         x                                
 ────│                                                                
     │                                                                
     │                                               x               
     │                                                                
─────┼─────────────────────────────────────────────────────────────────────────►
     │

找一条直线 使得直线距离采样的误差最小

此时,最小二乘定义误差为采样点误差的平方和,也即找使得 最小的

如果写为矩阵形式,记

分别求偏导,得

二元函数最值,那就先求极值,如果极值存在,肯定偏导为 ,解呗:

令两个偏导都等于 ,得到线性方程组:

这是否...

只能说可以解,但是这也太丑陋了

更好的解释

来自 MIT linear algebra course: projection matrix and least square

最小二乘的原理在于求解一个拟合结果,使得 个误差值 的平方和 最小

如果将 个误差值视为一个 维向量 ,那么恰有

这样一看,求最小值就变成了求最短向量的问题

课中老师举例为三个点

则有

     ▲
     │           
     │           
     │           
     │           
     │           
     │                                                           
    2│                                    x                ┌─x───────┘
     │                                            ┌────────┘
     │                                   ┌────────┘
     │                          ┌────────┘
     │                 ┌────────┘
     │        ┌────────┘   
    1┌────────┘        x                          
 ────│                                                                
     │                                                                
     │                                                               
     │                                                                
─────┼─────────────────────────────────────────────────────────────────────────►
     │                 1                  2                  3        

直线拟合时,设直线为 ,则误差向量为

也即,我们要通过选择 使得 最短

思考:这里 相当于在组合 的列向量,如果

  1. 恰好在 的列空间当中,则误差向量可以取到 ,此时显然有最优解(可能不止一个)
  2. 不在列空间当中(如果列满秩的话,则一定不在列空间里),此时该如何取到最短的误差向量

下图中两个绿色向量 张成了一个列空间。蓝色向量是

选取 就相当于在列空间上选定了一个橙色向量(两个绿色向量的组合),橙色向量和蓝色向量之差即为误差向量

img

此时该如何选取 就变成了一件很显然的事情: 最短当且仅当选得向量是 在列空间上的投影

求列空间投影不太方便,并非求得 在每个列向量上的投影分量然后相加,而是解一个线性方程组:

列满秩时, 显然是可逆的,于是可以解得

一维兼容

同样的可以以投影来解释

更高维度

同理