SoftMax Regression

说是回归，实为分类

同样是根据一组输入，得到若干结果中最可能的一个

softmax 字面意思似乎是 “软性” 地选择最大值

SoftMax Function

$x \in R^{n}$ ，softmax 函数将这个向量映射为一组概率值，并保持其之间的序关系

$soft (x) = exp (x_{1}) /Σ exp (x_{i}) exp (x_{2}) /Σ exp (x_{i}) .. exp (x_{n}) /Σ exp (x_{j})$

样本 $X, Y$ ，对样本进行估计 $\hat{Y} = W X + b$ ，现在想要获得一个损失函数以优化参数

首先对 $Y, \hat{Y}$ 进行 softmax 得到 $O, \hat{O}$

由于 $Y$ 是已知样本，所以我的估计中只有一项是正确的，对一项样本 $x_{1}$ 我得到一串概率 $\overset{o}{^}_{1}$ 中只有一项 $\overset{o}{^}_{1 i_{1}}$ 是有用的概率

那么我的估计是正确的概率就是对所有样本得到的概率的连乘

$P (Y ∣ X) = \overset{o}{^}_{1 i_{1}} * \overset{o}{^}_{2 i_{2}} * .. \overset{o}{^}_{n i_{n}}$

这样写着太麻烦，由于实际的样本 $Y$ 是一列列 One-Hot 向量， $o_{1}$ 中只有一项为 1，其余为 0，于是 $\overset{o}{^}_{1 i_{1}}$ 实际上可以写为

$\overset{o}{^}_{1 i_{1}} = Σ o_{1 i} \overset{o}{^}_{1 i} = o_{1} \cdot \overset{o}{^}_{1}$

对上述概率取负对数

$- lo g P = - Σ lo g o_{j i_{1}}$

同样的道理，出于 One-Hot 向量的性质 (这里对向量取 log 表示对其每一项取 log)

$lo g o_{j i_{1}} = Σ o_{ji} lo g \overset{o}{^}_{ji} = o_{j} \cdot lo g \overset{o}{^}_{j}$

所以重写概率 $P$

$- lo g P = - Σ o_{j} \cdot lo g \overset{o}{^}_{j}$

在 softmax regression 中，其每一项定义为 loss 函数

$l (y_{i}, \overset{y}{^}_{i}) = - Σ o_{i} \cdot lo g \overset{o}{^}_{i}$