cs231n lec3

损失函数

上讲的线性分类器的流程是将图片拉成向量后乘权重 $W$ ，我们需要选取一个较好的 $W$ ，损失函数就是这样一种评估我们选取的 $W$ 的好坏的函数

数据集 $\lbrace(x_i, y_i)\rbrace_{i=1}^N$ ， $x_i$ 是图片， $y_i$ 是标签，通过 $f$ 计算出分数，然后通过损失函数对权重的好坏进行量化

数据集上的损失函数

$L=\frac1N\sum_iL_i(f(x_i,W),y_i)$

训练的目的不是让分类器去拟合训练数据，而是让分类器在测试集上有更好的表现，因此可以在损失函数中加上一个惩罚项来防止模型的过拟合。一个原则是奥卡姆剃刀原则

正则化

不同的正则化函数

$R_{L_2}(W)=\parallel W\parallel_2\\ R_{L_1}(W)=\parallel W\parallel_1\\ ...$

softmax 函数 $\frac{e^{s_k}}{\sum_je^{s_j}}$