machine learning笔记:过拟合与欠拟合

本文介绍在模型评估可能会出现的过拟合与欠拟合两种现象,并对解决方法做一个总结。


解释

我们先通过图片来直观地解释这两种现象:

在上图中,右边是过拟合的情况,它指的是模型对于训练数据拟合过度,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。这是因为在这种条件下,模型过于复杂,导致把噪声数据的特征也学习到了模型中,导致模型的泛化能力下降,从而在后期的应用过程中很容易输出错误的预测结果。
左边是欠拟合的情况,它指的是在训练和预测时的表现都不好,这样的模型没有很好地捕捉到数据地特征,从而不能够很好地拟合数据。
相比而言,中间是拟合适当的情况,这种模型在应用中就具有很好的鲁棒性。


解决方法

  1. 针对过拟合

    1. 获取更多数据

      更多的样本可以让模型学到更多有效的特征,从而减小噪声的影响。
      当然,一般情况下直接增加数据是很困难的,因此我们需要通过一定的规则来扩充训练数据。比如,在图像分类问题上,我们可以使用数据增强的方法,通过对图像的平移、旋转、缩放等方式来扩充数据;更进一步地,可以使用生成式对抗网络来合成大量新的训练数据。
    2. 降低模型复杂度

      模型复杂度过高是数据量较小时过拟合的主要原因。适当降低模型的复杂度可以避免模型拟合过多的噪声。比如,在神经网络模型中减少网络层数、神经元个数等;在决策树模型中降低树的深度、进行剪枝等。

      注意:网络深度增加引起的准确率退化不一定是过拟合引起的,这是因为深度造成的梯度消失、梯度爆炸等问题,这在ResNet的论文中有讨论,详细可以看我的博文deep-learning笔记:使网络能够更深——ResNet简介与pytorch实现

    3. 正则化方法

      这里的方法主要是权重正则化法,具体说明可以参考machine-learning笔记:机器学习中正则化的理解
    4. 交叉验证

      交叉验证包括简单交叉验证(数据丰富时)、S折交叉验证(最常用)和留一交叉验证(数据匮乏时)。
    5. 集成学习

      即把多个模型集成在一起,从而降低单一模型的过拟合风险。主要有Bagging(bootstrap aggregating)和Boosting(adaptive boosting)这两种集成学习方法。
  2. 针对欠拟合

    解决欠拟合问题也可以参照解决过拟合问题的思路;
    1. 添加新特征

      当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。
      因此,通过挖掘“上下文特征”、“组合特征”等新的特征,往往能够取得更好的效果。
      在深度学习中,也有很多模型可以帮助完成特征工程,比如因此分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法。
    2. 增加模型复杂度

      当模型过于简单时,增加模型复杂度可以使模型拥有更强的拟合能力。比如,在线性模型中添加高次项,在神经网络模型中增加网络层数、神经元个数等。
      对于模型的选择,我在文末补充了两种模型选择的准则供参考。
    3. 减小正则化系数

      正则化是用来防止过拟合的,但当模型出现欠拟合现象时,我们就应该有针对性地减小正则化系数。

模型选择准则

模型选择的信息准则有很多,我这里介绍我知道的两个比较常用的模型选择准则:

  1. AIC准则

    赤池信息准则(Akaike Information Criterion,AIC)公式定义如下:其中k表示模型参数个数(复杂度),L表示经验误差(似然函数)。
    当需要从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型。
  2. BIC准则

    贝叶斯信息准则(Bayesian Information Criterion,BIC)是对AIC准则的改进,定义如下:与AIC不同,这里k的系数不再是常数。其中n代表的是样本量(数据量),这样,BIC准则就与样本量相关了。当样本量足够时,过拟合的风险变小,我们就可以允许模型复杂一些。
    这里再次附上这张直观的图片,方便理解与体会。简析可参考machine-learning笔记:机器学习中正则化的理解

碰到底线咯 后面没有啦

本文标题:machine learning笔记:过拟合与欠拟合

文章作者:高深远

发布时间:2019年10月01日 - 10:45

最后更新:2020年01月30日 - 12:22

原始链接:https://gsy00517.github.io/machine-learning20191001104538/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%