一、误差

统计学习的目的是是学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。当我们已经通过训练数据得到模型之后,我们可以用一组新的数据(测试数据)来看看模型效果如何。

20180816113210

我们计算出每个点与模型的距离,然后取平均,计算出平均误差。

201808161135

我们在训练数据集上得到的误差一般称作“训练误差”(training error),在新的样本上的误差成为“泛化误差”(generalization error)。我们都希望得到一个好的模型可以在新的样本之中得到一个较好的结果,使泛化误差变得更小。

二、过拟合

我们看下面的一张图

20181021060725

图中的第一张表是欠拟合的(高偏差),也就是说它没有很好的模拟出训练集的函数,最后一张表是过拟合的(高方差),因为它过度的拟合了训练集,无法更好的对新的数据进行预测。那么在遇到过拟合的问题时,我们该如何去做呢,一般有两种方式:

1.丢弃一些不能帮助我们正确预测的特征。可以手工标注,或者说使用一些模型来帮忙比如说PCA。

2.正则化。

三、正则化

我们可以看下面的一个公式

QQ20181021061943

我们发现正是由于高次项导致了过拟合问题,如果我们将这些高次项系数接近0,就可以很好的拟合,正则化就是在一定程度上减小这些参数的值。

为了减小这些参数的值,我们需要修改代价函数如下图所示:

081951193621142

我们在代价函数后面给加上θ3、θ4加上了一些惩罚项。因为,如果你在原有代价函数的基础上加上 1000 乘以 θ3 这一项 ,那么这个新的代价函数将变得很大,所以,当我们最小化这个新的代价函数时, 我们将使 θ的值接近于 0,同样 θ4 的值也接近于 0,就像我们忽略了这两个值一样。

如果我们不知道那些特征该惩罚那要怎么办呢?我们可以对所有的特征进行惩罚。因此最后的公式变为:QQ20181021143939

这就是正则化了。

参考:吴恩达机器学习视频

标签: none

评论已关闭