machine learning笔记:数据采样之正样本和负样本

今天在看最小二乘回归(least squares regression)时看到作者把positive examples设成1,把negative examples设成0。感觉对这个概念既熟悉又陌生,查了一下之后一下子想起来了。在机器学习中,数据预处理一般包括数据清洗、数据集成、数据采样。而正负样本涉及到了数据采样的问题,因此后面也提一下。


正样本和负样本

简单来说,和概率论中类似,一般我们看一个问题时,只关注一个事件(希望它发生或者成功,并对其进行分析计算),而正样本就是属于我们关注的这一类别的样本,负样本就是指不属于该类别的样本。


数据采样平衡

一般来说,比如我们训练分类器时,希望样本中正负样本的比例是接近于1:1的。因为如果正样本占比很大(比如90%)或者负样本占比远超正样本,那么训练结果可想而知,获得的分类器在测试中的效果会很差。
针对这种数据不平衡的问题,有以下三种solution:

  1. 过采样(over-sampling)

    这是一种较为直接的办法,即通过随机复制少数类来增加其中的实例数量,从而可增加样本中少数类的代表性。
  2. 欠采样(under-sampling)

    这种方法也比较直接,即通过随机消除占多数类的样本来平衡类分布,直到多数类和少数类实现平衡。
  3. 获取更多样本

    上面的两种方法比较直接方便,但也存在弊端,比如过采样可能会导致过拟合,欠采样可能无法很好地利用有限的数据(这也可能会造成过拟合)。因此最好还是获取更多的样本来补充,我认为主要有下面两种方法:
    1. 采集

      例如在海贼王漫画的样本中,我们要进行20x20大小的海贼检测,那么为了获取尽可能多的负样本,我们可以截取一张1000x1000大小的海王类图像,将其拆分为20x20大小的片段加入到负样本中(即50x50地进行分割)。
    2. 生成

      为了获得更多负样本,我们也可将前面1000x1000的海王类图像先拆分为10x10大小,这就比之前多出了4倍的负样本图像。不过要注意的是,为了保持大小的一致,还需进一步将其拉伸至20x20的大小。 当然,其实不需要从体积上达到这么大的比例,关键是像素尺寸的匹配。

碰到底线咯 后面没有啦

本文标题:machine learning笔记:数据采样之正样本和负样本

文章作者:高深远

发布时间:2020年01月18日 - 11:21

最后更新:2020年01月20日 - 13:28

原始链接:https://gsy00517.github.io/machine-learning20200118112156/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

0%